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Prefacio 


E sic livro osia bascado na idćia dc que iun computador pode ser eonsiderado u ma hierarquia de nivcis, cada qual exccutan- 
do alguma funęao bom dc fi ni da. O nivel lógieo digitai. o nivel de microarąuitetura. o mvel de arquitetura do conjunto de 
instrucao, o nivcl de maquina de sistemu operacional e o nivel de tinguagcm de montagem sao discutidos detalhadamente. 
Esla quinta edięao contem muitas alteraęóes que acompanham as rapidas mudanęas Ja industria de computadorcs, 
tomando o livro bastantc atual. Especificamente neste caso podcmos citar as maqutnas usadas como exemplo: elas forum 
atualizadas. Os exemplos utilizados sao o Pentium 4 da Intel, u Sun UltraSPARC 111 e o Intel 8051.0 Pentium 4 e um exemplo 
de CPU popular usada em maquinas de mesa. A UltraSPARC III e um exemplo de servidor popular muito usado em 
multiprocessadores de mćdio e grandę portes. 

Contudo, o 8051 pode ser urna surpresa para muita gentc: ele ć um chip venerdvel. que esui no mcrcado hd decadas e. por 
firn, com o enorme crescimento dos sistemas embutidos. tevc a oportunidade dc mostrar seus udcntos. Como ha computadores 
funcionando em tudo, desde radio-relógios ate fomos de microondas, aumcntou o interesse em sistemas embutidos, e o 8051 
e urna opęao de ampla utilizaęiio devido a seu custo extremamente biiixo, a profustio de softwurcs e poritericos para ele e ao 
grandę numero de programadorcs especializados no 8051. 

Ao longo dos anos. muitos profcssorcs que adotaram ostc livro >olicitaram rcpctidas vczes materiał sobrc programaęao 
em linguagem dc montagem. Agora, com u quinta edięao. esse materiał estd disponivcl no Apendiee C. 

A linguagem de montagem escolhida e a 8088. visto que ela e urna versao despojada do popular Pentium. Eu poderia ter 
usado a UltraSPARC ou a MIPS ou alguma outra CPU da qual qua.se ninguem ouviu talar, mas como ferramenut motivacional 
a 8088 ć urna opęao melhor. urna vez que grandę parte dos estudantes tern um Pentium em casa e ele e capuz de exccutar 
programas 8088. Contudo, ja que a depuraęao dc código dc montagem i muito diffctl, providencici um conjunto de ferramentas 
quc possibilitam o aprcndizado da programaęao cm linguagem de montagem. incluindo um asscmbler 8088, um simulador c 
um ruslreador. Essas ferramentas sao fomecidas para Windows. UNIX e Linux e podem ser baixadas pelo site Web do !ivro 
( www. prenhal l.com/tanenbaum _br). 

O livro tomou-se mais extenso ao longo dos anos c isso foi inevitavcl, tendo em vista que um assunto sc dcscnvo!vc e ha 
tnais u saber sobrc ele. O efcito desse desdobramento quando se resolve adotii-lo e que nem sempre e possivcl terminti-lo em 
um unico curso (por exemplo. quando o curso e tnmesir.il). Urna altcmativa possivcl seria estudar. como um minimo essencial. 
os capitulos 1. 2 e 3 intciros. a prtmeira parte do Capuulo 4 tutę. e inclusive. a Seęao 4.4) e o Capitulo 5. O tempo quc sobrar 
poderitt ser utilizado com o restante do Capitulo d e partes dos Capitulos 6. 7 e 8. dependendo do interesse do professor. 

Em seguida aprcsentamos. capitulo por capitulo. urna resenha das principais mudanęas. O Capitulo 1 ainila contem urna 
revisao histórica da arquiieuira de computador. que mostra como chegamos onde estamos hoje e quats forum os ntarcos ao 
longo do percurso. Disculitnos rumbem o espectro ampliado de computadorcs cxistcnies e apresentanfos nossos tres exemplos 
principais (Pentium 4, UltraSPARC 111 e 8051). 

No Capitulo 2. o materiał sobre disposiiivos de entrada/saida loi atualizado com enfase nu tccnologia de dispusiiivos 
modcmos. entre eies ctlmeras digitais. DSL e Internet por eabo. 

O Capitulo 3 passou por rcvisao e agom abortia tambem barramentos dc computador e chips modcmos de E/S. Aqui. os 
tres novos exemplos sao discutidos no nivcl do chip. Foi adictonado novo materiał sobre o barrumento PCI Exprcss. o qual. 
espera-se. substituird o barramento PCI em brcvc. 
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O Capitulo 4 sempre foi bcnquisto por explicar como um computador rcalmente funciona. portanto a maior 
parte deie nao sofreu alteraęóes. Comudo. tui novas seęóes que discutem o nivel de microarqui(ctura do Pentium 4, 
da UltraSPARC Ule do 8051. 

Os Capitulos 5. 6 e 7 foram atualizados com base nos novos cxemplos, porem, quanto ao restante, cstao 
relativamenie maltcrados. O Capftulo 6 usa como excmplo o Windows XP em vez do Windows NT mas, com base 
cm nossa discussao. as altcraęóes sao mini mas. 

Em comparaęao, o Capitulo 8 foi bastante modificado com a intcnęao dc reflctir toda a nova atividadc em tomo 
de computadores paralelos de todos os tipos. No capitulo abordam-sc cinco classes difcrentcs dc sistemas puraleios, 
dcsdc o paraielismo no chip (paralclismo no nivci da in.struęao, multilhreading no chip e multiproccssadores dc chip 
linico), utć co-proccssadores, sistemas de memória compartilhada e clustcrs. e finaliza com urna brcvc discussao 
sobre grades. Varios exemplos sao discutidos nesse capitulo, desde u CPU TriMedia atć os clustcrs BlueGene/L, 
Red Storm e Google. 

As referencias no Capitulo 9 foram radicalmcntc atualizadas. Organizaęao de computudores e urna arca 
dinamica. Mais da metade das referćncias nesta cdięao refere-sc a livros e artigos cscritos mais recentemente. 

Os Apćndiccs A e B nao foram atualizados. mas o Apendicc C sobre programaęao em linguagem de montagem 
e completamcntc novo. E um guia pralico e operacional para programaęao em linguagem de montagem, quc utiliza 
as fcrrnmentas acessfvcis pclo site Web. Foi escrito pelo dr. Evert Wattel da Vrije Universitcit, Amsterda. O dr. 
Wuttcl leciona hu muitos anos c tern ensinado seus alunos a usar essas ferramentas. Agradeęo muito a ele por ter 
escrito esse apendicc. 

Alćm das ferramentas para linguagem de montagem. o site Web tambem contóm um simulador grafico a ser 
usado juntamente com o Capitulo 4. Esse simulador foi escrito pelo professor Richard Salter dc Obcrlin College e 
pode ser usado pelos esiudantcs para ujuda-los a comprccndcr os principios discutidos nesse capitulo. Agradeęo 
muito a ele por ter fomecido esse software. 

Ademais, aprescntaęóes em PowerPoint para professores tambem es tao dispontveis em portugues no site Web: 

http:Avw\v.prenhall. com/tanenbaumjir. 

Professores que adolam esic livro tambem podem obter no site o manuał dc soluęócs dos problemas — basta 
contatar o representante da Pcarson Education pura obter uma senha. 

Muitas pessoas leram (partes) do original e contnbuiram com sugcstóes litcis ou ajudaram de divcrsas outras 
maneiras. Gostaria de agradccer, em particular. a ajuda prcstada por Nikitas Alexandridis, Shekar Borkar, Herbert 
Bos. Scott Cannon. Doug Carmean. Alan Charlesworth. Erie Cota-Robles, Michael Fettcraian, Quinn Jacobson, 
Thilo Kiclmann, tffat Kazi. Saul Levy, Ahmcd Louri, Abhijit Pandya. Krist Pctersen, Mark Russinovich, Ronald 
Schroeder e Saim Ural. pcla qual sou muito grato. 

Tambem gostaria de agradccer a eoninbuięao de Jim Goodman a esic livro, cm especial nos capitulos 4 e 5. 
Foi dole a idćia de usar a Java Virtual Machinę c o livro ftcou melhor por causa disso. 

Por firn. gosuuia de agradecer mais uma vez i Suzanne por seu amor e puciencia, que nunca se esgotaram. nem 
mesmo após 15 livros. Barbara c Marvin sao sempre uma ulegną e agora subem o quc os professores fazem para 
ganhar a vida. A Royal Netherlands Acadcmy of Arts and Sciences me concedeu a cobięada Acadcmy Professorship 
em 2004, o que me Iivrou dos aspectos menos alraentes da academia (tal como infmddveis rcunióes com o conselho 
diretor), e pela qual sou etcmamcnle grato. 


A ND REW S. TANENBAUM 


Os editores da ediędo brasileira agradecem 
a preriom roluhoraędo dos professores 
Mauricio Capelus e Edson MidonLiua. 
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Introduęao 



U rn computador digital e urna muquina quc pode resolver problemas para as pessoas executundo instruęóes que lhe sao 
dadas. U ma seqiifincia dc instruęóes quc dcscrcve como realizar certa tarefa ć denominada prot;rama. Os circuitos ele- 
trónicos dc cada computador podcm reconheccr c executar diretamente um conjunto limitado de instruęóes simples. e, 
para que os programas possam ser cxecutados. todos devem antes ser convertidos em instruęóes. Essas instruęóes bdsicas rara- 
mentc sao muilo mais compiicadas do que: 

Some dois mimeros. 

Verifique um numero para vcr se ele i zero. 

Copic dados de urna parte da memória do computador para outra. 

Juntas. ts instruęóes primitivas de um computador formam urna linguagem com a qual as pessoas podcm sc comunicar 
com ele. Essa linguagem e denominada linguagem de maquina. Qucm projeia um novo computador dcvc dccidir quais ins¬ 
truęóes incluir em sua linguagem de maquina. Em geral. os projetistas tentani fazer com quc as instruęóes primitivas sejam as 
mais simples possiveis. cocrentes com os requisitos de utilizaęao c desempenho idealizados para o computador. de modo a 
reduzir a compiexidade e o custo da eletrónica ncccssaria. Como a maioria das linguagens de muquinu e bem simples. todos 
acham dificil e entediante usa-la. 

Com o passar do tempo, essa simples observacao resultou em urna maneira dc estrulurar computadores como urna serie 
de abstraęóes. cada urna acumulando-sc aqueła que lhe lhe prcccde. Assim. a complcxidade pode ser dominada c sistemas de 
computaęao poiłem ser projetados de modo estruturado. sistemdtieo. Denominamos essa abordagem orgunizaęao estrutura- 
da de computadores — toi esse o nomc que demos a nosso livro. Na seęao seguinte descrcvercmos o que signiflea csse termo. 
Logo após, comentaremos alguns dcsenvolvimentos históricos, o estado atual da tccnologia e exemplos importantes. 

1.1 Organizacao estruturada de computadores 

Como jd inencionamos, existc urna grandę lacuna entre o que ć convcnicnic para as pessoas e o que e convenicnte para 
computadores. As pessoas querem fazer V. mas os computadores só podcm fazer Y. o quc da origem a um problemu. O obje- 
tivo deste livro e explicar como esse problemu pode ser resolvido. 

1.1.1 Linguagens, niveis e maąuinas reais 

O problemu pode ser abordado de duas-maneiras: ambas envolvem projetar um novo conjunto dc instruęóes quc seja mais 
conveniente para as pessoas usureni do que o conjunto de instruęóes que ja vem embutido na mdquina. Juntas. essas novas ins¬ 
truęóes tambem formam uma linguagem. que denominarcmos LI. cxatamente como as instruęóes dc mdquina formam urna lin¬ 
guagem. que denominarcmos LO. As duas abordagens sao diferentes nu modo como os programas escritos em LI sao execu- 
tados pelo computador que. alinal. so pode executar programas escritos em sua linguagem dc miiquina. LO. 

Um metodo para executar um programa escrito em LI ć primciro substituir cada instruęao cscrila no programu por uma 
scqliencia equivalente de instruęóes em LO. O programa resultantc consiste intciramentc em instruęóes LO. Entao o computa¬ 
dor cxccula o novo programu LO em vcz do antigo programu. LI. Essa tćcnicu o denominudu traduęao 

A outra tecnica e escrevcr um programa em LO quc considcre programas em LI como dados de entradu c os exccute cxa- 
minando cada instruęao por vcz e executando diretamente a seqdenciu cquivalente de instruęóes LO. Essa tócnica nao requer a 
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CN geraędo prćvia de um novo programu cm LO. Ela ć denominada interprctaęao e o programa que a executa ć cha- 

mudo interpretador. 

Traduędo e inierprctaęilo sao scmelhantes. Em ambos os metodos o cornputador cxecuta instruęóes em LI que 
rcalizam scqdfincias equivalentes de instruęóes em LO. A difcrcnęa e quc, na traduęao. uido o programa LI e antcs 
convertido para um programa LO; o programa LI e dcscartado e entao o novo programa LO e earrcgado na memó- 
ria do cornputador e executado. Durante a execuęao e o programa LO rceem-gerudo que ostu rodando no computa- 
dor e qucm o csta controlando. 

Na interprctaęao, após o exame e a decodilicaęao de eada instruęao l.l, ela e executada imediatamcnte. 
Nenhum programa traduzido ć gerado. Aqui, o interpretador esta no conlrole do cornputador. Para cle. o programu 
LI e apenas uma coleęao dc dados. Os dois mćtodos sao muito usados c crcscc cuda vez mais a utilizaęao dc urna 
combinaęao de ambos. 

Em vez de pensar cm termos de traduęao c interprctaęao, muitas vezes e mais .simples imaginar a esistencia 
dc um cornputador hipotetico ou maquina rcal cuja linguagcm de maquina seja LI. Vumos dcnominar cssa maqui- 
na real M1 (e vamos denominar MO u maquina rcal correspondcntc a LO). Se fosse bem barato construir uma mdqui- 
na como cssa nao haveria nenhuma neccssidade dc ter linguagcm LO ou uma maquina que cxccutassc programas 
em LO. As pessoas poderiam simplcsmentc cscrcver seus programas em LI c fazcr com quc o cornputador os cxe- 
cutassc diretamente. 

Mesmo que a maquina real com linguagcm LI fosse muito cara ou complicada dc construir com circuitos ele- 
trftnicos, as pessoas ainda poderiam escrcver programas para cla. Esses programas poderiam ser interpretados ou tra¬ 
duzidos por um programa escrito cm LO que pudesse ser exccutado diretamente pclo cornputador cxistemc. Em outras 
pulavras. seria possivel cscrcver programas para maquinas reais. cxatamcnte como sc clas existisscm na realidade. 

Para quc a traduęao c a interprctaęao sejam praticas. as linguagens LO e LI nao dcvcm ser 'muito' difercntcs. 
Essa limitaęao muitas vezcs quer dizer que LI. embora melhor do que LO, ainda assim estard longe de ser ideał para 
a maioria das aplicaęócs. O resultado (aivez seja desanimador a luz do propósito original da criaęao de LI — livrar 
o programador da carga de ter de exprcssar algorilmos em uma linguagcm mais adequada a maquinas do que a pes¬ 
soas. Contudo, u situaęao nao ć sem csperanęas. 

A abordagem óbvia t5 inventar um outro conjunto de instruęfles mais dirigido a pessoas e menos a mdquinas do 
que LI. Essc tcrceiro conjunto tambem forma uma linguagcm que denominaremos L2 (c com nuiquina rcal M2). As 
pessoas podcm escrcvcr programas cm L2 cxatamcnte como se de fiuo cxistisse uma maquina rcal com linguagem 
de nuiquina L2. Esses programas podcm ser traduzidos para LI ou executados por um interpretador escrito cm LL 
A invenęiio dc loda uma sćrie de linguagens. cada uma mais convcniente do quc suas antecessoras, pode con- 
tinuar indefmidamente a te que, por lim, se chegue a uma adcquada. Cada linguagcm usa a antccessora como basc, 
dc modo quc pixlemos considerar um cornputador que use essa tćcnica como uma sćrie de camadas ou niveis. um 
sobre o outro, como mostra a Figura 1.1. A linguagem ou nivel quc fica mais embaixo ć a mais simples e a que fica 
mais em cima <5 a mais softsticada. 

Existc uma relaęao importante entrc uma linguagem c uma maquinu real. Cada miiquina tem uma linguagcm 
dc maquina, que consislc cm todas as tnstruęties quc a maquina pode cxccutar. Na verdadc. a maqutna definc uma 
linguagem. Dc modo semclhantc. uma linguagem definc uma maquina — a saber, a m:iquina que pode exccular 
todos os programas cscrilos na linguagem. Cl aro que pode ser muito complicado e muito earo construir uma maqui- 
na definida por uma certa linguagem diretamente com basc em circuitos eletrónicos, porem nada nos impede dc 
imagind-la. Uma maquina cuja linguagem de maquina e C ou C-h- ou Java seria rculmcntc complcxa. mas fdcil de 
construir usando a tccnologia cxistcntc hoje. Porem, ha uma boa razdo para nao construir um cornputador como 
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cssc: seu custo nao seria cticientc em comparaęao com outras tćcnicas. Nao basta apcnas ser viavcl: um projeto prd- 
tico lambćm devc ter um custo aeeitrivcl. 

Em ceno sentido, um computador com n niveis pode ser considerado como n tnuquinas neais diferentes. cada 
urna com urna linguagem de nukjuina diferente. Usaremos os termos 'mwl' e ‘maquina real’ indifcrcntememc. 
Somente programas escritos em linguagem LO podcm ser esecutados diretamente pelos circuitos eletrflnicos, sem 

a neccssidade de traducao ou interpretaęSo intervcnientes. Programas escritos em L1. L2.L n dcvem ser inter- 

nretados por um interpretador que roda cm um nivel mais baixo ou traduzidos para urna outra linguagem corres- 
pondente a um ntve! mais buixo. 

Urna pessoa que escreve programas para a maquina real de ntvel n nao prccisa estar cientc dos interpretado- 
res c tradutores subjacentcs. A estrutura da miiquina garanle que esses programas sejam cxecutados, dc uma manei- 
ra ou de outra. Nao ha nenhum interesse real se eles s3o executados passo a passo por um interpretador que. por sua 
vez. tambem ć cxccutado por um outro interpretador, ou se sao exccutados diretamente pelos circuitos elctrónicos. 
O resultado e o mesmo em ambos os casos: os programas sao cxecutados. 

A maioria dos programadores que usam uma milquina dc nfvcl n esia interessada apcnas no nfvcl superior, 
aquele que menns se assemelha a linguagem dc mdquina que estd no nfvcl mais inferior. Tixlavia, qucm se interes- 
sa em entender como um computador rcalmentc (unciona dcvc estudar todos os ntveis. Quem projeta novos com- 
putadores, ou novos nfveis (isto e. novas mdquinas reais), tambćm devc estar ramiliarizado com niveis que nao 
sejam apenas o superior. Os conceitos c as tecnicas da oonstruęao de mdquinas como uma sdrie de nfveis e os deta- 
!hes destes sao o principal assunto deste livro. 

1.1.2 Maąuinas multiniveis contemporaneas 

A maioria dos computadores modenios consiste em dois ou mais nfveis. Existem maquinas com ate scis nivcis, 
como mostra a Figura 1.2. O nivel 0. na pane inferior, e o verdadeiro hardware da maquina. Seus circuitos execu- 
tam os programas em linguagem de mdquina de nivcl I. Para nao deixar nada de lado, dcvemos mencionar a exis- 
teneia de mais um outro nivel abaixo dc nosso mvcl 0. Esse mvcl, que nao e mostrado na Figura 1.2 porquc penen- 
ce ao dominto da engenharia de eletrieidadc (e, portanto, estd fora do escopo deste livro), e denominado mvel de 
dispositivo. Ncsse ntvel, u projetista ve transistores individuais. que sao os clcmentos dc nivcl mais baixo para pro- 
jctislas de computadores. Sc perguntarmos como ć o funcionamento interno dc um transistor. entraremos na aren da 
ffsica do estado sól ido. 

No mvcl mais baixo que estudarcmos, o ntvel higien digital, os objetos interessantes sao denominados por 
tas. Embora construidas com componcntcs analógicos, como transistores, as ponas podem ser modeladas com pre- 
cisdo como dispositivos digitais. Cada porta tem uma ou mais entradas digitais (sinais que representam 0 ou 1) e 
compula como saida alguma funęao simples dessas entradas, como E (AND) ou OL' (OR). Cada pena ć composta 
de. no maximo. um punhado dc transistores. Um pequeno numero de portas pode ser combinado para form ar uma 
memória de l bit, que pode armazenar um 0 ou um l. As memórias de I bit podem ser eombinadas em grupos de. 
por cxemplo. 16, 32 ou 64 para formar rcgistradores. Urn registrador ptxlc conter de um tinico numero binario atć 
aigum valor maximo. Portas tambem podem ser eombinadas para forma r o próprio mecanismo principal de com- 
putaęao. Examinarcmos portas e o nivel lógico digital com mais dctalhes no Capftulo 3. 

O próximo nivel e o nivel de micr»arquitetura. Ncsse ntvel vemos, normalmente, um conjunto dc 8 a 32 
rcgistradores que 1'ormam uma inemuna loeal e um circuito denominado.ALiJ i AriUimetic Logic Unit), ou ULA 
(Unidade Lógiea e Aritmćtica), que e capaz de exccutar operaęóes aritmćticas simples. Os rcgistradores siło 
concetudos ii ALU para formar um caminho dc dados utravćs do qual os dados transitem. A operaęao basica do 
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. 3 * caminho de dados eonsiste em selceionar um ou dois registradores. fazendo com que a ALU efetue algo com elcs 

(por exemplo, some-os) e armazene o rcsultado em algum registrador. 

Em algumas maquinas a operaęao do caminho de dados e controlada por um programu denominado micro- 
programa. Em outras, ela e controlada diretamemc por hardware. Nas tres primeiras edięóes deste livro, denomi- 
navamos este m'vel dc ‘mvel de microprogramaęao' porque, no passado, ele era quase sempre um interpretador de 
software. Visto que agora o caminho de dados costuma ser. de motio parciał, controlado diretamente por hardware, 
mudamos o nome nesta edięao para retratar esse falo. 

Em maquinas nas quais o caminho de dados e controlado por software, o microprograma e um interpretador 
para as instruęoes no m'vel 2. Ele busca, examina e executa instruęoes urna por urna, usando o caminho de dados 
para faze-lo. Por exemplo, no caso de urna instruęao ADD (SOME), a instruęao seria buscada, seus operandos. 
iocalizados e trazidos para dentro do registrador. a soma seria calculada pela ALU e, por firn, o resultado seria 
enviado dc volta ao lugar a que penence. Em urna maquina com controle incorporado do caminho de dados, ocor- 
reriam etapas semelhantes, mas sem um programa explfcito armazenado para controlar a interpretaęao das instru- 
ęóes do nfvel 2 . 

No m'vel 2 temos o que denominarcmos mvel de Arąuitetura do Conjunto de Instruęoes (ISA — 
Instmction Set Architccture), ou nivel ISA. Todo labricantc de computadores publica um manuał para cada um 
dos computadores que vende, intilulado ‘Manuał de Referenda de Linguagcm de Maąuina’ ou ‘Princfpios de 
Operaęao do Western Wombat Model 100X Computer’, ou algo parecido. Na verdade. esses manuais tratam do 
n(vel (SA. e nao dos nfveis subjacentes. Quando descrevem o conjunto de instruęoes da maquina, estao de fato des- 
crevendo as instruęoes executadas por interpretaęao pelo microprograma ou pelos circuitos de execuęao do hardwa¬ 
re. Se um fabricante de computadores fomecer dois interpretadores para uma de suas maquinas, os quais interpre- 
tam dois niveis ISA diferentes. ele tera de lornecer dois manuais de referenda de linguagem de mdquina, um para 
cada interpretador. 

O próximo m'vel em geral e hibrido. Grandę parte das instruęoes em sua linguagem tambem esta no nfvel ISA. 
(Nao hd nenhuma razao por que uma instruęao que aparece em um nfvel nao possa estar presente tambem cm 
outros.) Alćm disso, ha um conjunto de novas instruęoes, uma organizaęao diferente da memória, a capacidade de 
executar dois ou mais programas ao mesmo tempo e varios outros aspectos. Hd mais variaęóes entre projetos de 
n(vel 3 do quc entre os de n(vel 1 ou nfvel 2. 

As novas facilidades adicionadas ao nfvel 3 sao cxecutadas por um interpretador que roda no nfvel 2, o qual 
tern sido denominado historicamentc sistema opemcional. Essas instruęoes de nfvel 3, identicas as do mvel 2, sao 
executndas diretamente pelo microprograma (ou controle incorporado), c nao pelo sistema opcracional. Em ouuus 
palavras, algumas das instr uęoes do nfv el 3 sao in t erpretadas pelo sistema opcracional e outras sao interpretadas 
diretamente pelo microprograma. E isso que ‘hibrido’ quer dizer. Neste livro denominarcmos esse nivcl dc nivel de 
maquina de sistema operacionni. 

Ha uma ruptura fundamental entre os n(veis 3 e 4. Os tres nfveis mais baixos nao sao projetados para utilizaęao 
do programador inedio, de mvcl casciro. Ao contrario, sao dirigidos primariamente i exccuęao dos interpretadores e 
tradutores neccssarios para dar suporte aos nfveis mais altos. Esses interpretadores e tradulores sao escritos por pes- 
soas denominadas prngramadores de sistemas. que se cspecializam cm projetar e implementar novas maquinas 
rcais. Os mveis 4 e superi ores sao dirigidos ao p rogramador de apiicaęfies que tern um problemu a resolver. 

Uma outra mudanęa que ocorre no mvcl 4 ć o metodo de suporte dos niveis mais altos. Os m'veis 2 e 3 siło 
sempre interpretados. Em geral, mas nem sempre, os ntvcis 4 e 5 sao apoiados por traduęiio. 

U mu outra difercnęa entre os niveis I. 2 e 3. por um lado, e niveis 4,5 e superiores, por outro, e a natureza da 
linguagem fomccida. As linguagens de maquina dos niveis 1. 2 e 3 sao numericas. Programas nessas linguagens 
consistem de uma longa sćrie de numeros que e muito boa para maquinas, mas ruim para pessoas. A partir do nivel 
4. as linguagens»contem palavras e ubreviaęócs cujo significado as pessoas entendcm. 

O nivel 4. nivel da linguagem de montagem (assembly), na rcalidade o uma forma simbólica para uma das lin- 
guagens subjacentes. Esse nivel tomece um metodo para as pessoas escreverem programas para os niveis 1. 2 e 3 
era uma forma que nao seju tao desagraddvcl quanto as linguagens dc muquina reul em si. Programas cm lingua¬ 
gem de montagem siio primeiro traduzidos para linguagem dc nivel I. 2 ou 3. e cm seguida interpretados pela 
muquina real ou real adequada. O programa que realiza a traduęiio e denominado asscmbler. 

O m'vel 5 habilualmcnte eonsiste em linguagens projetadas para ser usadas por programadores de aplicaęócs 
que tenham um problemu a resolver. Essas linguagens costumam ser denominadas linguagens de alto nivel. 
Existcm literalmcnte centcnas dclas. Algumas das mais conhecidas siio C, C++. Java, L1SP c Prolog. Programas 
escritos nessas linguagens cm geral sao traduzidos para nfvcl 3 ou nfvcl 4 por tradutores conhecidos como compi- 
ladores. cmhoru its vezes sejam interpretados, em vcz de Uaduzidos. Programas em Java. por exemplo, costumam 
ser primeiro traduzidos para uma linguagem semelhante it ISA denominuila ‘código de bytes Java’ ou ‘bytccode 
Java', que e entao interpretada. 

Em alguns casos, o nivel 5 eonsiste em um interpretador para o dommio de uma aplicaęao especffica, como 
matematiea simbólica. Ele fomece dados c operaęóes para resolver problemas nesse domfnio em termos que pes¬ 
soas versadas nele possani entendć-lo com facilidadc. 

Resumindo. o aspecto fundamental a tembrar e que computadores siio projeuidos como uma serie de niveis. 
cada um eonstruido sobie seus untccessores. Cada mvel representa uma abstraęao distinta na qual estao presentes 
diferentes objetos e operaęóes. Por projetarmos e analisarmos computadores desse modo, por enquanto podcmos 
dispensar detalhes irrclevantes e assim reduzir um assunto oomplexo em algo mais facil de entender. 




O conjunlo de tipos de dados. operaęóes e caracteristicas de eada ni'vel e denominado arquiteturu A arauiie- 
tura trata dos aspectos que sdo vis(veis ao usuario daquele nfveł. Caracteristicas que o programador v«5 como a 
quaniidade de memdria disponivel. sao parte da arquitetura. Aspectos dc implementaęao. como o tipo de tccnolo- 
gia usado para implementar a memória. nao sao parte da arquitetura. 0 estudo sobre como projetar as partes de um 
sistema de computador que sejam vis(veis para os programadorcs e denominado arąuitetura de eomputadores 
Na pratica. contudo, arquitctura de eomputadores e organizaęao de eomputadores significam cssenctalmentc a 
mesma cnisa. 

1 . 1.3 Evoluęao de maąuinas muitiniveis 

Para eolocar as maquina.s mulunivcis sob cena pcrspectiva. examinarcmos brevemente seu descnvo!vimento 
histórieo, mostrando como o numero e a nutureza dos niveis evoluiram ao longo dos anos. Programas escritos em 
urna vcrdadeira linguagem dc mdquina (mvel 1) de um computador podem ser exccutados diretamente pelos circui- 
tos elelrónicos (nfvei 0) do computador sem nenhum interpretador ou tradutor interveniente. Esses circuitos cletró- 
nicos. junto com a memória e dispositivos de entrada/saida. formam o hardware do computador. O hardware con- 
sistc em objetos tangtveis — circuitos integrados. placas de circuito impresso. cabos. fontes de energia, mcmónas 
e impressoras — em vcz de ideias abstratas. algoritmos ou instruęóes. 

O software, entretanto. consiste em algoritmos (instruęóes dctalhadas que dizem como fazer algo) c suas 
representaęóes no computador, o que chamamos de programas. Os programas podem ser armuzenados cm disco 
rigido, disco flcx(vel. CD-ROM, ou outros mcios. mas a cssencia do software e o eonjunto de instruęóes quc com- 
póe os programas. e nao o nieio fisico no qual estao gravados. 

Nos primeiros eomputadores, a fronteira entre hardware e software era nilida Com o tempo, no entanto, cssa 
fronteira ficou bastante indistinta. primordiulmente por causa da adięao. rcmoęao c fusdo de mveis i medida quc os 
eomputadores evoluiam. Hoje em dia. muitas vezes e di l ici I distingui-la (Vahid, 2003). Na verdade, um tema cen- 
tral deste livro e 

Hardware e software sao logicamente equivalerues. 

Qualqucr operaęao exccutada por software tambem pode ser embutida diretamente no hardware, de preferen¬ 
cja após ela ter sido suticientemcnte hem entendida. Como observou Karcn Pa netta Lentz: “Hardware e apenas soft¬ 
ware petrificado". Claro que o contrario ć verdadeiro: qualqucr instruęao cxccutada em hardware tambćm pode ser 
simulada em software. A dcci Sao de eolocar cert as funęóes em hardware e outras em software e baseada em lato- 
res como cuslo, vclocidade, conliabilidadc e lrcquencia de mudanęas esperadas. Hd poucas regras rigorosas e imu- 
uiveis para determinar quc X deva ser instalado no hardware e Y deva ser cxpliciiamcntc programado. Essas deci- 
sóes mudam com as tendfincias económieus, com u demunda e com a utilizaęao de tecnologias de eomputadores. 

A invenęao da microprogramaęao 

Os primeiros eomputadores digitais. na dćcada de 1940. tinham só dois niveis: o ntvel ISA. no qual era feiui 
toda a programaęao, c o nivel lógico digital que exccutava esses programas. Os circuitos do m'vcl lógico digital eram 
complicodos. iliffceis de entender e montar. e nao confuiveis. 

Em 1951, Mauriee Wilkes. pesquisador da Universidade de Cambridge, sugeriu projetar um computador de 
trćs mveis para simplillcar drasticamente o hardware (Wilkes. 1951). Essa mdquina deveria ter um interpretador 
embutido, imutavel (o microprograma), cuja funęao fosse executar programas de n(vel ISA por interpretaęao. Como 
agora o hardware só reria de cxecutar microprogramas, que tinham um eonjunto limitado dc instruęóes, em vez de 
programas de ntvcl ISA, cujos conjuntos de instruęóes eram muito muiores. seria necessario um numero inenor de 
circuitos cletrónicos. Urna vcz quc. na ćpoca. os circuitos cletrónicos eram compostos de valvulus eletrónicas. lal 
simplificaęao prometia reduzir o numero de valvulas e. portanto. aumentar a confiabilidade listo ć. o numero dc 
falhas por dia). 

Poucas dessas maquinus de irds ntveis foram construidus duramc a decada dc 1950. Outras tantas toratn cons- 
truidas durante a decada dc 1960. Em tomo dc 1970. a idćia de intcrprciar o nfvel ISA por um microprograma. em 
vez de diretamente por mcios cletrónicos. era dominantę. Todas as prąncipais m;iquinas da ćpoca a usavam. 

A invenęao do sistema operacional 

Naquoles primeiros anos. grandę parte dos eomputadores era ‘accssfvel a todos'. o que significava que o pro¬ 
gramador tinha de operar a maquinu pessoalmentc. Ao lado de cada maquina havia urna pianilha de utilizaęao. Um 
programador quc ąuisesse executar um programa assinava a pianilha e rescrvava um periodo dc tempo, digamos. 
quurta-fcira, das 3 as 5 da manha (muitos programadorcs gostavam de trabaihar quando a sala onde a muquina esta- 
va instalada licava trańquila). Quando oheguva seu horano, o programador se dtrigia a sala da maquinu com um 
pacotc dc cartóes perfurados de 80 colunas l um incio primitivo dc entrada de dados) em urna das maos c um lapis 
bem apontado na ouua. Ao chcgar ił sala do computador, ele' gentil menie levava atć a porta o programador que la 
estava antes de!e e tomava posse da maquina. 

I. - Ele' iicve ser cnlcndido como - clc ou ola' era lodo esic livro. 
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Sc quises.sc excculur um programa em FORTRAN o pragramudor dcvia seguir as seguintes etapas: 

1. Eic se dirigia ao armario onde era maniida a bibłiotcca dc programas. rciirava o grandę maęu verde rotu- 
lado 'compilador FORTRAN', colocava-o na leitora dc cartóes e apertava o botao START. 

2 . Entao colocava scu programa FORTRAN na leitora de cartóes e apertava o botao CONTINUE. O progra¬ 
mu era lido pda maquina. 

3 . Quando o eomputador piirava. ele lia scu programa FORTRAN em um segundo momenio. Einbora alguns 
compiladores exigissem apenas urna passagem pcla entrada. muitos requeriam duas ou muis. Para cada 
piLssagem. era preciso ler um grandę maęo de cartóes. 

4 . Por firn. a traduęao se aproxnnava da conclusdo. Era comum o programador ficar nervoso perto do finał 
porque, se o compilador encontrasse um erro no programa, o programador tinha de corrigi-lo e comccar 
todo o processo novamcnte. Se nao houvcssc nenhum erro. o compilador perl'urava cm cartóes o progra¬ 
ma traduzido para linguagcm dc mtiquina. 

s. Entao o programador colocava o programa em linguagem dc maquina na leitora dc cartóes, junto com o 
maęo da bibłiotcca de sub-rotina, e lia ambos. 

6 . O programa comeęava a cxecutar. Qua.se sempre nao funeionava e parava inesperadamente no mcio. Em 
geral, o programador mexia um pouco nas chaves de controle e observava as luzes do consolc durontc 
alguns instantes. Se tives.se sorte, conscguiria descobrir qual era o problema e corrigir o erro. Em seguida, 
voltava ao armario onde estava guardado o grandę c verde compilador FORTRAN e comeęava tudo de 
novo. Se nao tivesse tania sorte, imprimia o contetido da memória. denominado dcscarga \dump) dc 
memória, e o levava para casa a firn de estuda-lo. 

Esse procedimento, com pcquenas variaęóes, foi o normul cm muitos cenlros dc computaęao durante anos. Ele 
tbręava os programadores a aprender como operor a maquina e o quc 1'azcr quando ela parava, o quc acontccia com 
frcq(iencia. A maquina costumava ficar ociosa cnquanto as pcssoas carrcgavam cartóes peta sala afora ou coęavam 
as respcclivas eabeęas tentando descobrir por que seus programas nuo estavam luncionando adequadamente. 

Perto dc 1960 as pessoas ten larum rcdu/.ir o dcsperdfcio dc tempo automatizando o trabalho do operador. Um 
programa denominado sistema operacional era mantido no eomputador todo o tempo. O programador produzia 
ccrtos cartóes dc controle junto com o programa, quc cram lidos c cxccutados pclo sistema operacional. A Figura 
1J apresenla uma amostra de servięo ( Job ) para um dos primciros sistemas operacionais dc ampla utilizaęiio. o FMS 
(FORTRAN Monitor System), no IBM 709. 

O sistema operacional lia o cartao "JOB e usava a informaęao nele contida para finalidadcs dc contabilidadc. 
(O astcrisco era usado para identificar cartóes dc controle. pani quc clcs nao fossem confundidos com cartóes dc 
programa e de dados.) Depois o sistema lia o cartao '"FORTRAN, quc era uma instntęilo para carrcgar o compila¬ 
dor FORTRAN com base cm uma fila magnćtica. Entao o programa era lido para a maquina c compilava pclo pro- 
grama FORTRAN. Quando o compilador tcrminava. devolvia o controle ao sistema operacional. que entao lia o car¬ 
tao *DATA. Isso era uma instruęao para executar o programa traduzido usando como dudos os cartóes que vinham 
após o cartao ‘DATA. 

Einbora o sistema operacional fosse projetado para automatizar o trabalho do operador (dat seu nomc), foi 
tambem o primeiro passo para o dcscnvoivimcnto de uma nova nukjuina rcal. O cartao '"FORTRAN podia ser con- 
siderado como uma instruęao virtuul ‘compilar programu'. 

De modo semelhante. o cartao "DATA podia ser considcrado uma instruęao virtuul 'executar programa'. Um 
nivcl que contives.sc apenas duas instruęóes nao era Id um grandę mvel, mas ja era um comcęo. 

Nos anos subseqilentes, os sistemas operacionais lomaram-sc cada vez mais sofisticados. Novas instruęóes, 
facilidades c caracteristicas forom adicionadas ao nivel ISA atć quc cle comeęou a parcccr um novo ntvel. Algumas 
das instruęóes desse novo nfvel cram idenlicas ds instruęóes do nfvel ISA. mas outras. em particular as instruęóes 
dc cntrada/safda, erom completamente diferentes. As novas instruęóes comeęaram a ficar conłtecidas como macros 
dc sistema operacional ou chainadas do supervisor Agora o tentu) usual ć chatnadn do sistema. 
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Sistemas operacionais lam be m sc desenvolvcram de outras mancinis. Os primeiros liam maęos de cartóes e 
imprimiani a saida na impressora de linha. Essa organizaęao era conhecida como sistema batch. Nomialmentc 
havia u ma espcra de varias horas enire o honirio em quc um programa entrava na maquina e o horario em que os 
resultados llcavam prontos. Era dificil descnvolver software nessas cireunsianeias. 

No irncio da decada de 1960. pesquisadores do Dartmouth College, do MIT e dc outros lugares desenvolvc- 
mm sistemas operacionais que permitiam a varios programadorcs se comunicarcm diretamcnte com o computador. 
Esses sistemas tinham tcrminais remotos concctados ao computador central por linhas tolefónicas. O computador 
era compartilhado por muitos usuarius. Um programador podia digilar um programa e obter os resultados impres- 
sos quase imediatamente cm scu escritório, na garagem de sua casa ou onde quer que o terminal estivesse localiza- 
do. Esses sistemas eram denominados sistemas dc tempo compartilhado itimesharing). 

Nosso inleressc em sistemas operacionais estd nas partes que interpretum as instruęóes e caracteristieas pre- 
sentes no nfvel 3 e quc nao estao presentes no mvel ISA, em vez de nos aspectos dc compartilhamento de tempo, 
limbom nao vamos destacar o falo, voce deve ter sempre em mente que sistemas operacionais fuzem mais do que 
apenas interpreter caracteristieas adicionadas ao nfvel (SA. 

Migraęao de funcionalidade para microcódigo 

Assim que u microprogramaęao sc tomou comum (em 1970), os projelistas perccberam que podium acresccn- 
tar novas instruęóes apenas ampliando o microprograma. Em outras palavras. eles podiam acresccntar ‘hardware’ 
(novas instruęóes dc nuiquina) por programaęao. Essa rcvclaędo lcvou a urna esplosao virtual de conjuntos de ins¬ 
truęóes de maquina, porque os projetistas competiam uns com os outros paru produzir conjuntos de instruęóes maio- 
res e melhores. Muitas dessas instruęóes nao eram cssenciais no sentido de que seu cfeilo podia ser conseguido com 
facilidade pelas instruęóes existcntcs, emboru as vezes fossem um pouco mais vclozes do que uma seqiićncia de ins¬ 
truęóes jd existentc. Por exemplo. muitas maquinas tinham uma instruęao INC (INCrement) quc adicionava 1 u um 
ntimero. Como essas maquinas tambem tinham uma instruęio geral ADD, nao era necessario ter uma instruęao 
cspeciai para adicionar I (ou 720, se fosse o caso). Contudo, a INC normalnicnte era um pouco mais rapida que a 
ADD, e por isso era inserida. 

Por essa raziło, muitas outras instruęóes forum adicionadas ao microprograma. Entre clas as mais freqiicnte.s eram: 

1. Instruęóes para multiplicaęilo c divisao dc intciros. 

2 . Instruęóes antmeticas para ponto llutuante. 

3 . Instruęóes para chamar e sair dc procedimcntos. 

4 . Instruęóes para acclerar laęos (looping). 

5 . Instruęóes para manipulur cadeias de caracteres. 

Alem do mais, assim quc os projetistas de maquinas percebcram como era ficil acresccntar novas instruęóes. 
comcęarum a procurar outras caracteristieas para adicionar a seus microprogramas. 

Eis alguns cxcmplos desses acrescimos: 

1. Caracteristieas para acelerar cdlculos que cnvolvessem vetores (indcxaęao e cndereęamento indireto). 

2 . Caracteristieas para permitir a inovimeniaęao dc programas na memória após o infcio du esecuęao (faci- 
lidades de relocaęao). 

3 . Sistemas dc interrupęao que uvisavam o computador tao logo uma operaęao de entrada ou safda estivesse 
concluida. 

4 . Capacidade para interromper um programa c iniciar outro com um pequcno numero de instruęóes (comu- 
taęao de proccsso). 

s. Instruęóes cspcciais para processar arquivos dc audio, imageni e inulliinldia. 

Inumcras outras caracteristieas e facilidades tambćm forum acresccntadas ao longo dos unos. em geral para 
acclerar aigumu uimdudc particular. 

Eliminaęao da microprogramaęao 

Os microprogramas engordaram duranle os anos dourados da microprogramaęao (dćcadas de 1960 e 1970) e 
tambem tendiam a ficar cada vcz mais lentos a medida que sc tomavam mais volumosos. Por firn, alguns pesquisa- 
dores perccberam que. eliminando o microprograma, promovendo uma drastica rcduęao no conjunto de instruęóes 
e fazendo com que as instruęóes restantes fossem executadas diretamcnte — isto e. controle do caminho de dados 
por hardware —, as maquinus podiam Ikar mais rapidas. Em certo sentido. o projeto de compuuidores fcchou um 
ctreulo cnmplcto. voltando ao modo como era antes dc Wilkes invcntar a microprogramaęao. 

Mas a rodu continua girando. Programas Java em geral sao executados por compilaęao para urna linguagem 
iniermediaria ( by ter ode Java) c depois pela intcrprctaęio dessa linguagem intermedidria 

O objetivo dessa diseussao e inoslrar que a frontciru entre hardware c software e arhitrdria e esta sempre 
mudando. O software de hoje pode ser o hardware de amunha. e vice-vcrsa. Alćm do mais. as frontcirns entre os 
varios mveis tambem sao fluidas. Do ponto de vista do programador. o modo como uma instruęao e implementada 
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nao e importantc. exccto, talvez. no que sc referc ii sua vclocidade. U ma pcssoa quc csleja program ando no n(vel 
ISA pode usar a instruęao ‘multiplicar’ desse m'vcl como se fosse urna instruęao de hardware sem ter dc se prcocu- 
par com ela ou atć mesmo sem saber se ela e. na vcrdade. urna instruęao de hardware. O hardware de alguem ć o 
software de outrem. Voltarcmos a todos esses tópicos mais adiantc neste iivro. 

1.2 Marcos da arąuitetura de computadores 

Durante a evoluęao do computador digital moderno foram projetadas c constnudas centenas dc diferentes tipos 
de computadores. Grandę parte ja foi esquecida hi muito tempo, mas alguns causaram um impacto significativo 
sobre ideias modemas. Ncsta seęao vamos aprcsentar um brcvc esboęo de alguns dos principais desenvolvimentos 
históricos para entender melhor como chegamos ornie estamos agora. Nem e prcciso dizer que esta seęao apenas 
passa por aito os pornos de maior interesse e deixa muita coisa de fora. A Tabela I. I aprcsenta algumas maquinas 
que marcaram ćpoca e quc serao discutidas nesta seęao. Slater (1987) e uma boa referencja de consulta para quem 
quiscr materiał histórico adicional sobre as pessoas quc inauguraram a era do computador. Biograflas curtas e belas 
fotos cm cores. dc autoria de Louis Fabian Buchtach, de alguns dos principais fundadores da era do computador sao 
aprcsentadas no livro de arie de Morgan (1997). 


Tabela Ti Alguns marcos no desenvolvimento do computador digital moderno. 


V Ano 

Nome 

Construido por 

Comentarios j 

1834 

Maąuina analitica 

Bahhage 

Primeira tentatńra de construir um computador digital 

1936 

Zl 

Zuse 

Primeira maąuina de calcu! ar com reles 

1943 

C0L0SSUS 

Govemo brudnico 

Pnmeiro computador eletrónico 

1944 

Marki 

Aiken 

Primeiro computador norte-americano de uso geral 

1946 

ENIAC 

Eckert/Mauchley 

A historia moderna dos computadores comeęa aqul 

1949 

EDSAC 

Wilkes 

Primeiro computador com programa armazenado 

1951 

Whirlwmd I 

M.LT. 

Primeiro computador de tempo reai 

1952 

IAS 

von Neumann 

A maioria das mśąuinas atuais usa esse projeto 

1960 

PDP-I 

DEC 

Primeiro minicomputador (50 vendidos| 

1961 

1401 

IBM 

Maąuma para peąuenos negódos de enorme popularidade 

1962 

7094 

IBM 

Donunou a computaęao cientilica no inicio da dćcada de 1966 

1963 

B5000 

Bunoughs 

Primeira maąuina projetada para uma linguagem de alto nivel 

1964 

360 

IBM 

Primeira linha de produto projetada como uma familia 

1964 

6600 

CDC 

Primeiro supercomputador cenlifico 

1965 

PDP-8 

DEC 

Primeiro minicomputador de mercado de massa (SO mil vendidos| 

1970 

PDP-11 

DEC 

Dominou os minicomputadores na ttócada de 1970 

1974 

8080 

Intel 

Pnmeiro computador de uso geral de 8 bits em um chip 

1974 

CRAY-1 

Cray 

Primeuo supercomputador \retorial 

1978 

VAX 

DEC 

Primeiro supermmicomputador de 32 bits 

1981 

IBM PC 

IBM 

Deu inicio a era moderna do computador pessoal 

1981 

0sbome-l 

Osborne 

Primeiro computador poitśtil 

1983 

Lisa 

Apple 

Primeiro computador pessoal com uma GUI 

1985 

386 

Intel 

Primeiro ancestral de 32-bits da linha Pentium 

1985 

MIPS 

MIPS 

Primeira mńąuma comercial RISC 

1987 

SPARC 

Sun 

Pnmeira estaęao de trabalho RISC baseada em SPARC 

1990 

RS6000 

IBM 

Pnmeira maąuma superescalar 

1992 

Alpha 

DEC 

Pnmeira computador pessoal de 64 bits 

1993 

Newton 

Apple 

Primeiro computador palmtop 


1.2.1 A geracao zero — computadores mecanicos (1642-1945) 

A primcira pcssoa a construir urna intiquinu dc culcuiar operacional fot o ciernista frances Blaise Pascal 
(1623-1662), em honra dc quem a linguagem Pascal łoi batizada. Esse dispositivo. construido cm 1642. quando 
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Pascal tinha apenas 19 anos. foi projetado para ajudar seu poi. um colctorde iinpostos do govcmo francćs. Era intci- 
ramente mccantco, usava engrenagens c funcionava com uma manivcla opcrada a mao. 

A maquina de Pascal podia cfctuar apenas operaęóes dc udięao c subtracao. mas 30 anos mois tarde o »randc 
matcmatico alemao, barao Gottfried Wilhelm von Leibniz (1646-1716), construiu uma outra miiquina mccanica que 
tambem podia multiplicar c dividir. Na verdade, Leibniz constmiu o equivalentc a uma calculadora dc bolso dc qua- 
tro operaęóes tres seculos atnls. 

Durunte 150 anos nada de mu i to importante aconteceu, ate quc um professor dc matcnuitica da 
Univcrsidadc de Cambridge. Charles Babhage (1792-1871). o inventordo velocfmetro. projetou e construiu sua 
primeira niaquina difcrcncial. Esse dispositivo mecanieo quc, assira como o de Pascal, só podia somar e sub- 
trair, foi projetado para calcular tabelas de numeros titcis para a navcgaęao naval. Toda a construęao da mdnui- 
nu foi projetada para exccutar um unico algoritmo. o metodo de difercnęas finitas que usava polinómios. A 
caracteristica mais interessante da tndquina difcrcncial era seu mćtodo de safda: ela perfurnva seus rcsultados 
sobrc uma chapa dc gravaęao de cobrc com uma punęSo dc aęo. prenunciando futuros mcios dc cscrita unica 
como cartóes perfurados e CD-ROMS. 

Embora a mdquina difcrcncial funcionassc razoavelmentc bem. Babbage logo sc cansou dessa maquina quc só 
podia exccutar um unico algoritmo. Ele comecou u gustar quanudades cada vez maiores de seu tempo e da fortuna 
da familia (sem mencionar 17 mil libras do govcmo) no projeto e eonstruęao dc uma succssora denominada maqui 
na analftica. \ mdquina anal/tica tinha quatro componcntcs: a armazenagem (memória), o moinho (unidade de 
ealculo), a seędo de entrada (leitora dc cartóes perfurados) c a seędo dc safda (safda perturada e impressa). A arma- 
zenagem consistia em I .(XX) palavras de 50 algarismos dccimais, cada uma usada para conter varidveis e resultados. 
O moinho podia accitar operandos da armazenagem e entdo os somava, subtraia, multiplicava ou dividia e, por firn. 
devolvia o rcsultado a annazenagem. Assim como a mdquina diferenciul, ela era intciramentc mecanica. 

O grandę avanęo da mdquina analftica era ser de uso gcral. Lia instruęóes de cartóes perfurados e as exccuta- 
va. Algumas instruęóes mandavam a maqtiina buscar dois mlineros na annazenagem. traze-los atć o moinho, efe- 
tuar uma operaęao com eles (por exemplo, adiędo) e enviar o resultado dc voita para a armazenagem. Outras ins- 
truęócs podiom testar um numero e desvid-lo condicionalmentc. dependendo de ele ser positivo ou negativo. 

Perlurando um programu diferente nos cartóes de entrada. era possfvel fazer com que a maquina analftica rca- 
lizassc ealculos diversos. o quc nao acontecia com a maquina difcrcncial. 

Visto que a maquina analftica era programavcl em uma linguagem de montagem simples. ela precisava de soft¬ 
ware. Para produzir esse software. Babbage contratou uma jovem de nome Ada Augusta Lovclace, quc era filha do 
famoso poeta britanico lorde Byron. Assim, Ada Lovelace foi a primeira programadora de computadorcs do mundo. 
A linguagem de programaęao Ada® tern esse nome para homcnaged-la. 

Infelizmente. assim como muitos projetistas modemos. Babbage nunca conseguiu depurar completamentc o 
hardware. O problemu era que ele precisava de miihares e milharcs de dentes e rtxias e engrcnagens produzidos com 
um grau de prccisao quc a tecnologia do seeulo XIX nao podia ofereccr. Ainda assim. suas ideias estavain muito ii 
Irenie dc sua epoca e atć hojc a maioria dos computadorcs modernos tem uma estrutura muito semelhante a da 
maquina analftica, portanto ć mais do que justo dizer quc Babbage foi o avd do computador digital moderno. 

O seguinte desenvolvimento importante ocorrcu no finał da dćeada de 1930. quando um estudante dc engenha- 
ria alcmilo chamado Konrad Zuse construiu uma sćrie dc móquinas calculadoras automdticas usando rclćs eletro- 
magnćticos. Ele nao conseguiu tinanciamento do govemo após o infcio da guerra porque os burocratas govemamen- 
lais csperavam ganhar a guerra tao rapidamente que a nova muquina só estaria pmnla após o lermino do conflito. 
Zuse nao conheciu o trabalho dc Babbage e suas maquinas lorom dcstrufdas pelo bombardeio uliado dc Bcrlim em 
1944, portanto seu trabalho nao tcve nenhuma influćnciu sobrc as miiquinas subscqiientes. Mcsmo assim cle foi um 
dos pionciros da area. 

Um pouco mais tarde. nos Estados Unidos. duas pessous tambem projetaram calculadoras, John Atanasoff no 
Iowa State College e Georgc Stibbitz no Bell Labs. A inaquina dc Atanasoff era surprcendenlemenie avanęada para 
sua ćpoca. Usava aritmetica binaria e a memóna era composta de oapacitores rccarregados periodicamente pani 
impedir fuga de carga, um proccsso que ele denominou 'sacudir a memória’ Os chips modemos de memória dinii- 
mica (DRAM) funcionam desse mesmo modo. Infelizmente. a mjkjuina nunca se tornou realnienie opcracional. Dc 
certo modo. Atanasoff era como Babbage: um visiondrio quc atinal foi dcrnitado peta tecnologia dc hardware ina- 
dcquada cxi.stcnte em seu tempo. 

O computador de Stibbitz. embora mais primitivo do quc o de Atanasoff. funcionava de verdade. Stibbitz fez 
uma grandę demonstraęao publica dc sua maquina dumnie uma confcrcncia no Dartmouth College cm 1940. Uma 
das pessous prcsentcs era John Mauchley, desconhecido prolessor de ffsica da Univcrsidade da Pennsylvania. Mais 
tarde o mundo do computador ouviria mais a respeito do professor Mauchley. 

Enquanto Zuse. Stibbitz e Atanasoff estavam projetando calculadoras automuticas. um jovcm chamado 
Howard Aiken estava rcmoendo tediosos ealculos numencos a mao como parte de sua pesquisa de doutorado em 
Horvard. Dcpois dc conclufdo o doutorado. Aiken rcconhcccu a importdncia dc fazer ealculos ii maquma. Foi ii 
bibliotcca. descobriu o trabalho de Babbage e dccidiu construir com rclćs o computador dc uso geral que Babbage 
nao tinha conscguido construir com rodas dentadas. 

A primeira miiquinu de Aiken. a Mark I. foi conclufda em Harvard em 1944. Tinha 72 palavras dc 23 algaris¬ 
mos dccimais cada e um tempo dc instruęao dc 6 segundos. A entrada e a safda usavam fitu de papci perturada. 
Quandu Aiken eonclut o sucessor dessa mdquina. a Mark 11. os computadorcs de reles jti estavam obsoletos. A era 
elctrónica tinha comeęado. 
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1^2 A primeira geraęao — valvulas (1945-1955) 

O estfmulo para o computador eletrónico łoi a Scgunda Gucira Mundial. Durantc a fasę inicial da guerra. sub- 
marinos ałemaes osuwam eausando devastaęao cm navios britiinicos. As instruęóes dc comando dos almirantcs ale- 
niacs cm Berlint eram etwiadas aos submarinos por radio, as quais os britiinicos podium intcrccptar, c intercepta- 
vam. O problemu era que essas mensagens eram eodificadas usando um dispositivo denominado ENIGMA, eujo 
antecessor foi projetado pelo inventor amador e outront presidente dos Estados Unidos, Thomas Jefferson. 

Utgo no inieio da gucrra. a inteligencja britilniea conseguiu adquirir utną muquinu ENIGMA da Inteligencie 
Potonesa. que a linhu roubado dos alemaes. Contudo. para decifrar urna mensagem codiftcada era preeiso uma 
quantidadc cnorme dc cdlculos e, para a mensagent ser de alguma utilidadc, era necessario quc esse calculo fosse 
concluido pouco tempo depois de ela ter sido interceptada. Para decodificar essas mensagens, o govemo britanico 
montou um laboratório ultra-secrcio que construiu um computador eletrónico denominado COLOSSUS. O famoso 
malematico britanico Alan Turing ajudou a projetar cssa maquinu. O COLOSSUS funcionava desde 1943. mas. uma 
vez quc o govcmo britanico guardou praticamente todos os aspectos do projeto como segredo militar durantc 30 
anos, a linha COLOSSUS foi basicamentc um beco sem salda. Só vale a pena cita-lo por ter sido o primeiro com¬ 
putador digital eletrónico do mundo. 

Alćm dc destruir as maquinas de Zusc e estimulur a construęao do COLOSSUS. a guerra nimbem afetou a 
computaęao nos Estados Unidos. O exercito prccisava de tabelas de alcance para mirar sua artilharia pesada e pro- 
du/.ia essas tabelas contratando ccntcnus de mulheres para fazer os calculos nccessarios com a utilizuęao de calcu- 
ladoras dc mao as mulheres eram considcradas mais caprichosas quc os homens. Ainda assim o proccsso era 
demorado e frequcntementc surgiam erros. 

John Mauchlcy, quc conhecia o trabaJho de AtanasotT, bem como o de Stibbilz, sabia que o exercito estava 
interessado em calculadoras mccanicas. Como muitos cientistas da computaędo que vieram depois dele, Mauchley 
montou uma proposta solicitando ao exercito financiamenio para a construęao de um computador eletrónico. A pro- 
posta foi aceita etn 1943, e Mauchlcy c seu aluno dc pós-graduaęao. J. Prespcr Eckert, passaram a construir um 
computador eletrónico ao qunl deram o nome dc ENIAC (Electronic Nuincricul Integrator And Compute — 
inlcgrador c computador numerico eletrónico). 

O ENIAC consistia em 18 mil valvulas e 1.500 rclćs, pesava 30 toneladas c consutniu 140 quilowatts de ener¬ 
gia. Em termos de arquitetura, a mdquinu tinlia 20 registradores, cada um com capacidade para conter um numero 
decimal de 10 algarismos. Um registrador decimal e uma memória muito pequcnu que pode conter desde um nume¬ 
ro ate um outro numero maximo de casas dccimais. mais ou menos como o odómctro, quc registru quanto um carro 
rodou em seu tempo dc vida util. 

O ENIAC era programado com o ajuste de atć 6 mil interruptores multiposięuo e com a conexao dc uma imen- 
sa quantidade de soquctcs com uma veniadeira floresta de cabos dc jumpers. 

A construęao da maquina só foi concluida em 1946. quando era muito larde para ser de alguma utilidadc em 
relaęao a seu propósito original. Todavia, uma vez quc i guerra linha acabado. Mauchley e Eckert receberam per- 
missao para organizar um curso de verao para descrevcr seu trabalho para seus colegas cientistas. Aque!e ctirso dc 
veróo foi o inieio dc uma cxpiosiio de interesse na construędo de grandes computadores digitais. 

Após aquclc curso de verao histórico. outros pesquisadorcs se dispuseram a construir computadores elctróni- 
cos. O primeiro a entrar em operaędo foi o EDSAC (1949), eonstruido na Universidudc dc Cambridge por Muurice 
Wilkes. Entre outros. Iiguravam o JOHNIAC, da Rand Corporation; o 1LL1AC, da Universidade de Illinois; o 
MAN1AC. do Los Alamos Laboratory; e o WEIZAC, do Weizmann Institute em Israel. 

Eckert e Mauchley logo comeęaram a trabalhar em um sucessor, o EDVAC (Electronic Discrcte Yariable 
Automatic Compute) Contudo. esse projeto licou fatalmcntc comprometido quando eles deixaram a Univcrsidadc 
da Pcnsilvania para fundar uma empresa nova. a Eckert-Mauchlcy Computer Corporation, na Filadelfia. (O Silicon 
Valley ainda nao linha sido invcnUtdo.) Após uma serie de fusóes, essa empresa se tomou a moderna Unisys 
Corporation. 

Como um uparte legał. Eckert e Mauchlcy solicitoram uma patenie aiegando quc eles haviam iiwcntado o com¬ 
putador digitul. Em rctmspecto. possuir cssa patenie nao seria nada inau. Após anos de liugio, o tnbunui dectdiu 
que a patenie dc Eckert Mauchley era invalida e que John Atunasoff linha inventado o computador digital, embora 
nunca o lives.se patenteado. 

Enquanto Eckert e Mauchley trabulhavam no EDVAC. uma das pessoas envolvidas no projeto ENIAC, John 
von Neumann. foi para o Institute of Advanced Studies de Princeton para construir sua própna vcrsao do EDVAC, 
d maquina LAS. Von Neuntann era um geniu. da mesma estirpe dc Leonardo Da Vinci. Fulava muitos idiomas, era 
espccialista cm cióndas Kstcas e matcmatica e guardava na memória tudo que ja ouviru, vira ou lera. Conseguiu 
cnar sem consulta. palavra por palavra. o texto de livros quc tinha lido havia anos. Na ep<x:a em quc se interessou 
por computadores, ele ja era o muis eminente malematico do mundo. 

Uma das coisas quc logo licou óbvia para ele foi quc programar computadores com quantidadcs imensas de 
intcrniplores e cabos era uma tarcia lenta, tediosa e mccanica. Ele perccbeu quc o programu podia ser representa- 
do em forma digitul nu memóriu do computador. junto com os dudos. Tambem viu que a desujeitudu aritmetica deci¬ 
mal serial usuda pelo ENIAC. com cada dfgito representado por 10 valvulas (1 acesa e 9 apugudas), podia ser subs- 
tituida usando aritmetica binuriu paralela, algo quc Atanusolf tinha percebido anos untes. 

O projeto biisico, o primeiro que ele descrcvcu. agora e conhecido como miiquina de Von Neumann. Ela foi 
usada no EDSAC, o primeiro computador de programu annazenudo. e agora, nuiis de tneio sćculo depois, ainda ć 
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a base dc quase lodos os computadores digitais. Essc projcio c a maquina iAS. construida cm eolaboraęao com 
Herman Goldstinc. tcvc urna influeneia t5o grandę que valc a pena dcscrcvć-la brcvcmcnlc. Embora o nome dc Von 
Ncumann esteja semprc ligado a cssc projcio. Goldsune c outros tambćm lhc derara substanciais contribuięóes. Um 
esboęo da arquitctura e dado na Figura 1.4. 

A miiquina dc Von Neumann tinha cinco partes biisicas: a memória. a unidade dc lógica e aritmćtica, a unida- 
de de controle c o cquipamento de cntrada e salda. A memória consistia cm 4.096 paiavras. urna palavra contcndo 
40 bits. cada bit um 0 ou um 1. Cada palavra continha ou duas instruęóes de 20 bits ou um inteiro de 40 bits com 
sinal. As instruęóes linham X bits dcdicados a idenlilicar o tipo da instruęao c 12 bits para especiiicar urna das 4.096 
palavras dc memória. Juntas. a unidade dc lógica e aritmetica c a unidade de controle formavam o , cćrebro’ do com- 
putador. Em computadores modernos elas sao combinadas cm um unico chip denominado CPU (Central Processing 
Unit — unidade central de proccssamentoi. 

Dcntro da unidade dc lógica e aritmćtica havia um registrador intemo especial de 40 bits denominado acumu- 
lador. Urna instruęao tipica adicionava urna palavra dc memória ao acumulador ou armazcnava o contcudo do acu- 
mulador na memóriu. A maquina nao tinha aritmetica dc ponto flutuante porquc Von Ncumann achava que qualquer 
maicmatico competentc conscguiriu acompanhar o ponto decintal (na verdadc o ponto binario) de cabeęa. 

Pralicamentc ao mesmo tempo cm que Von Ncumann estava construindo sua maquina IAS, pcsquisadores do 
MIT tambćm estavam construindo um eomputador. Difcrente da IAS, do ENIAC c dc outras mdquinas desse tipo, 
cujas pulavras linham longos comprimentos c cram destinadas a cdlculos numćricos pesados, a mdquina do MIT, a 
Whirlwind I, tinha urna pulavra de 16 bits c era projetada para controle em tempo rcal. Essc projeto levou 4 inven- 
ęio da memória de nuclco magnćtico por Juy Forrester c. depois, cm seu dcvido tempo, ao primeiro minicomputa- 
dor comercial. 

Enquanto tudo isso cstava acontecendo. a IBM era urna pcqucna empresa dedieada ao negócio dc produzir per- 
furadoras dc eartóes e maquinas mocdnicas de classificaędo de cartócs. Embora tenha contribuido para o fmanciu- 
mento de Aikcn. a IBM nao estava muito interessada em computadores atć que produziu o 701 cm 1953, muito 
tempo após a empresa dc Eckert c Mauchley ter alcanęado o posto de numero um no mercado comercial com seu 
eomputador UNIVAC. O 701 tinha 2.048 palavras de 36 bits, com duas instruęóes por palavra. Foi o primeiro de 
urna serie de maquinas cienliTicas que vieram a dominar o setor dentro de urna dćcada. Trćs anos mais tarde aparc- 
ceu o 704 que, de inicio, tinha 4.096 palavras de memória dc nticlcos, instruęóes de 36 bits c urna imwaęSo: hard¬ 
ware de ponto flutuante. Em 1958, a IBM inieiou a produęao dc sua Ultima maquina de vdlvulas, a 709, que era 
basicamcnte um 704 rcmodclado. 

1.2.3 A sęgunda geracao — transistores (1955-1965) 

O transistor foi inventado no Bell Labs em 1948 por John Burdcen, Walter Bnittain e William Shockley, pelo 
qual rcccberam o Premio Nobel dc flsica dc 1956. Em dc/, anos o transistor revoiucionou os computadores e, ao 
linal da dćcada de 1950, os computadores de valvulas estavam obsoletos. O pnmeiro eomputador transistorizado 
foi construfdn no Lincoln Laboratory do MIT. urna maquina dc 16 bits na tnesma linhu do Whirlwind I. Rccebcu o 
nome de TX-0 (Transistorizcd eXpcrimental Computer 0 — eomputador transistorizado eXpcrimcntal 0), e a imen- 
ęao era usa-la apenas como dispositivo dc tesle para o ntuilo mais elegante TX-2. 

O TX-2 nunca foi grandę eoisa, mas um dos engenheiros que trabalhava no Laboratory, Kenneth Olsen, fun- 
dou urna empresa, a Digital Equipment Corporation (DEC), em 1957, para fabricar urna maquina comercial muito 
parccida com o TX-0. Quatro anos sc pass ar ani antes quc essa maquina. o PDP-1. aparccessc, primordialmcnte 
porque os investidorcs dc risco quc tundaram a DEC acrcditavam dc modo vcemente quc nao havia mercado para 
computadores. Aiinal. T. J. Watson. antigo presidente da IBM, certa vez dissera que o mercado mundial de com- 
putadores eorrespondia a cerca dc quatro ou cinco unidades. Em vcz de computadores. u DEC vcndia pcquenas 
piacas de ciicuitos. 

Ouando o PDP-1 linalmentc apareceu em 1961, tinha 4.096 palavras de 18 bits c podia exccuuir 200 mil ins¬ 
truęóes por segundo. Esse desempenhu era a metade do desempenho do IBM 7090, o sucessor transistorizado do 
709 e o eomputador mais nipido do mundo na epoca. O PDP-1 custava 120 mil dólares; o 7090 custuva milhócs. A 
DEC vcndeu dezenas dc PDP-1 s. e nascia a industria de minicomputadorcs. 

Um dos primeiros PDP 1 s foi dado ao MIT. onde rapidamente atraiu a atenęao de alguns novos genios cm apri- 
moramento tao comuns no MIT. Urna das muitas inovaęócs do PDP-1 era um visor e a capacidade de plotar pon- 
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tos cm qualquer lugur de sua tela dc 512 por 512. Em pouco tempo os estudantes ja tinham programado o PDP-1 
para jogar guerra no cspaęo c o mundo ganhou scu primeiro vidcogame. 

Alguns anos mais lardc a DEC lanęou o PDP-8. que era urna maquina dc 12 bils. porem muito mais banita do 
que o PDP-1(16 mil dólares). O PDP-8 tinha urna imporiantc inovaęao: urn barramento unico. o omnibus, como 
mostra a Figura 1.5. Urn barramento e urn conjunto dc fios paralclos usados para conectar os componcntcs dc um 
computador. Essa arquitctura fot urna ruptura importantc cm rclaęao a arquitcturu da maquina IAS. ccntradu na 
memória, c, desdc entiio. foi adolada por quasc todos os computadores de pequcno porte. A DEC alcanęou u marca 
dc 50 mil PDP-8 vcndidos. o quc a consolidou como a lider no negócio dc minicomputadorcs. 

Enquanto isso, a reaęao da IBM ao transistor foi construir utną vcrsiio transistorizada do 709. o 7090. como ja 
mcncionamos. c, mais tarde. o 7094.0 7094 tinha um tempo de ciclo dc 2 microsscgundos c 32.536 palavras dc 36 
bits de memória de micleos. O 7090 e o 7094 marcaram o finał das maquinas do tipo ENIAC, mas dominaram a 
computaęao cientlfica durante anos na decada de 1960. 

Ao mesmo tempo que se tomava uma grandę foręa na computaęao cientlfica com o 7094, a IBM cstava 
ganhando muito dinheiro com a vcnda de uma pequena maquina dirigida para empresas, denominada 1401. Esta 
maquina podia ler e escrcver fitas magneticas, ler e perfurar cartócs, alem de imprimir salda dc dados quase tao rapi- 
damente quanto o 7094, c por uma fruęao do preęo dcle. Era tem'vcl para computaęao cientlfica. mas perfeita para 
manier registros comcrciais. 

O 1401 era fora do comum porquc nao tinha nenhum registrador. nem mesmo um comprimchto dc palavra 
fixo. Sua memória tinha 4 mil bytes de 8 bits. cnibora modclos posteriores suponassem atć 16 mil bytes. o que era 
assombroso na ćpoca. Cada byte continha um caractcre de 6 bits, um bit administratWo e um bit para indicar o finał 
da palavra. Uma instruęao MOVE, por excmplo, tinha um endereęo-fonte e um endereęo-destino, e comeęava a 
transferir bytes da fonie ao destino atć encontrar um byte dc finał com valor 1. 

Em 1964, uma minóscula empresa dcsconhecida. a Control Data Corporation (CDC), lanęou o 66(X), uma 
mdquina que era aproximadamcntc uma ordcm dc grandcza mais nipida do quc a poderosa 7094 e qualquer outra 
mtiquina exislcnte na ćpoca. Foi amor a primeira vista para os calculistas, e o CDC pani u a caminho do sucesso. O 
segredo de sua vclocidade e a razao por que era tao mais rtipido do que o 7094 era quc. denlro da CPU, havia uma 
maquina com alto grau de paralelismo. Essa nuiquina tinha diversas unidades funcionais pani efetuar adięóes. 
outras para efetuar multiplicaęóes e ainda mais uma para divisao, e todas elas podiam funcionar em paralelo. 
Embora extrair o melhor dessa maquina exigisse cuidadosa progntmaęao, com um pouco de trabalho era posslvcl 
executar dez instruęóes ao mesmo tempo. 

Como sc isso nao fosse o bastante, a 6600 tinha uma quantidade de pequenos computadores interaos para 
ajudd-la. uma cspecie de Branca de Neve e as ‘Sete Pcssoas Vcrticalmente Prejudicadas’. Isso significava quc a CPU 
podia gastar todo o seu tempo proccssando numeros. dcixando todos os detalhes dc gercnciamento dc jobs c cnlra- 
da/salda para os computadores menores. Em rctrospecto. a 6600 cstava decadas a frente de sua ćpoca. Muitas das 
idćias fundamentais encontradas em computadores modemos podcm ser rastreadas dirclamcntc atć a 6600. 

O projetista da 6600, Seymour Cray, foi uma figura legendiiria. da mesma estatura dc Von Ncumann. Ele devo- 
tou sua vida inteiru ii construęao de maquinus cuda ve/. mais nipidas, denominadas entiio de supcrcomputadorcs, 
inciuindo a 66(X), a 7600 e a Cray-1. Tainbem invcntou o famoso algoritmo para comprar carros: va a concessiomi- 
ria mais próxima de sua casa, aponte o carro mais proximo da porta e diga: "Mmi levar aquele‘\ Esse aigoriuno gasła 
o mininio de tempo em coisas sem importancia - como comprar carros para dcixar o maximo dc tempo livre 
para fuzer coisas importantes como projetar supercomputadtircs. 

Havia muitos outros computadores nessa ćpoca. mas um sc dcstaca por uma raziło bem diferente e que vale a 
pena mencionar: o Burroughs B5(XX). Os pmjetislas dc tntiquinas como o PDP-I, o 7094 e o 6600 estavmn total- 
mente preocupados com o hardware, seja para quc ficassem mais baratos (DEC), seja para que fosse mais ripidos 
(IBM e CDC). O software era praticamente irrclevantc. Os projctislas do B5(XX) adotaram uma linha dc aęao difc- 
icntc. Consmilrani uma maquina com a intenęao cspecifica de programa-la em linguagem Algol 60. uma prccurso- 
ra da C e da Javu, c inclulram muitas caracterlslicas no hardware para facilitar a tarefa do compilador. Nascia a idćia 
de quc o software lanibem era importantc. Infclizmcntc. ela foi esquceida quasc de imediato. 

1.2.4 A terceira geracao — circuitos integrados (1965-1980) 

A invenęiio do circuito integrado de sillcio por Robert Noycc em 1958 permitiu quc dezenas dc transistores 
fossem colocados em um unico chip. Esse cmpucotumenio possibiliuiva a construęao dc computadores menores, 
mais rapidos e mais baratos do quc seus prccursores transistorizados. Alguns dos computadores mais significalivos 
dessa geraęiio sao descritos a seguir. 

Em 1964 a IBM era a empresa lider da arcu dc computadores e tinha um grandę problemu com suas duas 
maquinas de grandę succsso. a 7094 e a 1401: elas eram tao incompatlvcis quanto duas maquinas podem ser. Uma 
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Tatieia 12 Oferta inicial da linha de produtos IBM 360. 


j Propriedade 

! Modelo 30 

! Modelo 40 

' Modelo 50 


Desempenho relatńra 1 

1 

3.5 

10 

21 

Tempo de cicło (em bilionśsimos de segundo) 

1.000 

625 

500 

250 

Memóna marana (bytes) 

65.536 

262.144 

262.144 

524.288 

Bytes btiscados por ticlo 

1 

2 

4 

16 

Mumero manno de canais de dados 

3 

3 

4 

6 


era uma processadora de mimcros dc alta velocidade que usava aritmetioa binana cm registradores de 36 bits: a 
outra. um fcstcjado proccssador de entrada/saida quc usava aritmetica decimal serial sohre palavras dc eomprimcn- 
tu variavel na mcmória. Muitos de scus clientcs emprcsariais tinham ambas c nao gostavam da idóia de ter dois 
departamcntos de programaęao sem nada em eomum. 

Quando chegou a hora de substituir essas duas series, a IBM dcu um passo radical. Lanęou uma linha dc um 
unico produto, o System/360, bascado em circuitos intcgrados, projetado para computaęao cientffica c tambem 
comercial. 0 System/360 continha muitas inovaę5es, das quais a mais importante era ser uma familia de uma meia 
duzia de mdquinas com a mesma linguagem de montagem e tamanho e capacidade cresccntes. 

Uma empresa poderia substituir seu 1401 por um 360 Model 30 e scu 7094 por um 360 Model 75. O Model 
75 era maior e mais rapido (e mais caroj.jnas o software escrito para um deles poderia, era principio. ser execuui- 
do em outro. Na pratica. software cscrito para um modelo pequcno seria cxceutado em um modclo grandę sem pro- 
blcmas, porem, quando transfcrido para uma maquina menor, o programu poderia nao caber na mcmória. Ainda 
assim era uma importante melhoria cm rclaęao ii situuęao do 7094 e do 1401. A idćia de familias dc maquinas foi 
adotada instantaneamentc c, em poucos unos, a ntaioria dos fabricantcs de computadorcs linha uma familia dc 
mtiquinas comuns que abrangiam uma ampla faixa de prcęos e desempenhos. Algumas caracterislicas da primeira 
familia 360 sao mostradas na Tabela 1.2. Mais tardc foram lanęados outros modelos. 

Outra importante inovaęau da 360 era a multiprogramaęao. com varios programas na mcmória ao mesmo 
tempo, de modo que, enquanto um estava esperando por entrada/saida para concluir sua tarefa. um outro podia exe- 
cutar, o que resultava era utilizaęao mais alta da CPU. 

A 360 tambćm foi a primeira maquina que podia emular (simular) outros computadorcs. Os modelos meno- 
res podiam emular a 1401. e os maiores podiam emular a 7094, de maneira que os clientcs podiam continuar a 
executar seus antigos programas binarios sem modificaęao dumnie a conversao para a 360. Alguns modelos cxe- 
cutavam programas 1401 com uma rapidcz tao maior do que a própria 1401 que muitos clientes nunca oonvcrtc- 
ram seus programas. 

A emulacao era fdcil na 360 porque todos os modelos iniciais e grandę parte dos quc vieram depois eram 
microprogramudos. Bastava que a IBM escrcvcssc tres miemprogramas: um para o conjunto nativo de instruęóes 
da 360, um para o conjunto de instruęóes da 1401 e outro para o conjunto de instruęóes da 7094. Essa flexibilida- 
dc foi uma das principais razócs para a iniroducao da microprogramaęao. 

A 360 rcsolveu o dilema ‘binaria paralela’ versus ‘decimal serial’ com uma soluęao conciliatória: a maqui- 
na tinha 16 registradores de 32 bits para aritmćtica bindria, mas sua memória era orientada para bytes. como a 
da 1401. Tambćm tinha instruęóes soriais no estilo da 1401 para movimcntar registros de tamanhos variaveis 
nu memória. 

Uma outra caracleristica importante da 360 era (pum uqucla epoca) um imenso espaęo dc endcreęamento de 
2 1a (16.777.216) bytes. Como naqucla epoca a memória euslava varios dólares por bytc. esse (anto de memória 
parecia uma inlinidadc. Infelizmentc. a serie 360 foi seguida mais larde pelas series 370, 4300. 3080 e 3090. todas 
usando a mesma arquiiciuru. Era mcados da decada de 1980, o linuic de niemona se tumuu um problemu real e a 
IBM tcve de abandonar em parte a compatibilidade, quando mudou para endercęos de 32 bits necessarios para ende 
reęar a nova mcmória de 2 i2 bytes. 

Com o bencficio de uma pcrcepęao tardia, podemos argumentar que, uma vez que dc qualquer modo tinham 
palavras e registros de 32 bits. provavelmente tam hem deveriam ter endercęos de 32 bits. mas na ćpoca ninguem 
podia imaginar uma maquinu com 16 milhóes de bytes de memória. Culpar a IBM por essa fal ta de visao e como 
culpur o fabricantc dc computadorcs pessoais modernos por ter somente endercęos dc 32 bits. Dcntro dc alguns anos 
os computadorcs pessoais taivez precisariio dc muito mais do que 4 bilhóes de bytes de memória, quando entao os 
endercęos de 32 bits licarilo inapelavelmente pequcnos. 

O mundo dos minicomputadores tambem avanęou um grandę passo na direęao da tcrceira geraęao quando a 
DEC lanęou a serie PDP-11. um sucessor de 16 bits do PDP-8. Sob muitos aspectos. a serie PDP-11 era como um 
irtnuo menor da serie 360, exatamenlc como o PDP-1 era um irmiiozinho da 7094. Ambos, 360 e PDP-11. tinham 
registradores orientados para palavras e uma memória orientada para bytes, e ambos ocupavam uma faixu que 
abrangia uma considcravc! rclaęao preęo/desempenho. O PDP-11 icvc enormc succsso. em especial em universidu- 
dcs. e deu continuidade a lideranęa da DEC sobie os outros fabricantcs dc minicomputadores. 
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1-2.5 A ąuarta geracao — integraęao em escala muito grćinde 
(1980-?) 

Na decada de 1980. a VLSI (Very Large Scalę Integration — integraęao em !-•» muito grandę) tinha possi- 
biiitado colocar primciro dczenas de milhares. depois ccntenas de milhares e, por firn, milhóes dc transistores em urn 
unico chip. Essc desenvolvimento logo levou a computadores menores e mais rdpidos. Antes do PDP-1. os computa¬ 
dores erain tao grandes e caros quc empresas e universidadcs tinham dc ter departamentos especiais denominados cen- 
trais de computaęiio para usii-los. Com a ehegada do minicomputador, cada departamento podia eomprar seu pró- 
prio computudor. Em 1980. os preęos cairam tanto que era viavcl urn unico individuo ter seu próprio computador. 
Tinha comeęado a era do computador pessoal. 

Computadores pessoais cram utilizados de modo muito diferente dos computadores grandes. Eram usados para 
processar lcxtos, montar planilhas c para nunterosas apiicoędcs de alto grau de inleraęao — como os jogos — que 
os computadores maiores nao manipulavam bem. 

Os primeiros computadores pessoais costumavam ser vendidos como kits. Cada kil continha uma płaca de cir- 
cuito impresso, urn punhado de chips. quc normalnienie incluia urn Intel 8080. alguns cubos, uma fonie de energia 
e talvcz urn disco llexivel de 8 polegadas. Juntar essas partes para montar um computador era tarefa do comprador. 
O software nao era fomecido. Se voce quisesse algum, voce mesmo teria de escrcve-lo. Mais tarde. o sistema ope- 
racional CP/M, escrito por Gary Kildall, tomou-sc popular nos 8080s. Era um verdadeiro sistema operacional em 
disco flextvcl. com um sistema de arquivo e comandos dc usuario digilados no teclado e enviados a um processa- 
dor de comandos (sliell). 

Um outru computador pessoal era o Apple, e mais tarde o Apple U, projetados por Steve Jobs e Steve Wozniak 
na tao falada garagem. Essa maquina gozava de enormc popularidade entre usuiirios domesticos c cm escolas, c fez 
da Apple uma participantc stiria no mercado pralicamcntc da noitc para o dia. 

Depois dc muito deliberar e observar o que as outras empresas estavam fazendo, a IBM. quc entao era a foręa 
dominantę na induslria dc compuutdores. por fint decidiu quc queria entrar no negócio do computador pessoal. Em 
vez de projetar toda a miiquina partindo do zero, usando somente peęas da IBM, o quc levaria tempo dcmasiado, a 
IBM fez algo quc uao Ihe era caracteristico. Dcu a Philip Estridge. execuńvo da empresa. uma grandę mała de dinhci- 
ro c disse que ele fosse para bem longe dos acionistas intrometidos da sede da empresa em Armonk. NY, e só voltas- 
se quando tivessc um computador pessoal em funeionamento. Estridge se estabeleceu longe da sede. em Boca Raton, 
EL, escolheu o Intel 8088 como stiu CPU, e construiu o IBM Persona! Computer com eutnponenles enconlrados na 
praęa. Foi lanęudo em 1981 e instantaneamente se tomou o maior campeao de vendas de computadores da história. 

A IBM tambem fez algo que nao Ihe era caracteristico e de que mais tarde viria a se arrepender. Em vez de 
manier o projeto da tnaquina em total segrcdo (ou ao menos protegido por uma patenie) como costumava fazer. a 
empresa publicou os planos completos, incluindo todos os diagramas de circuitos, em um livro quc vendia por 49 
dólares. A ideia era possibilitar a fabricaęao, por outras empresas, de placas de concxuo ( plug-in ) para o IBM PC. 
a lim de aumentar sua flexibilidade e popularidade. Infclizmentc para a IBM. uma vez que o projeto se tomara total- 
mentc publico e era fdcil obter todas as peęas no mercado. intimeras outras empresas comeęaram a fabricar clones 
do PC. muilas vezes por muito menos do que u IBM eslava cobrando. Assim eomeęava loda uma indiistria. 

Embora outras empresas fabricassem computadores pessoais usando CPUs nao fomecidas pela Intel, entre elas 
Cominodore. Apple e Atari. o impulso adquirido pela indiistria do IBM PC era tao grando que os outros forara esnta- 
gados por esse rolo comprcssor. Apenas uns poucos sobrcviveram em nichos de mercado. 

Um dos que sobreviveram, sc bem que por um triz, foi o Macintosh da Apple. O Macintosh foi lanęado em 
1984 como o succssor do malfadado Lisa da Apple, o primciro computador quc vinha com uma GUI (Graphical 
1,’scr Interface — Intcrfnce Grafica de Usuario). semelhante a agora popular interface Windows. O Lisa frucas- 
sou porque era inuilo euro. mas o Macintosh de menor preęo lanęado um ano depois foi um enorme succsso c ins- 
pinm amor e paixao entre seus muitos admirndores. 

Esse primeiro mercado do computador pessoal tambem levou ao desejo ate entao inaudito por computado¬ 
res portateis. Naquele tempo, um computador portatil fazia tanto sentido quanto boje faz um refrigerador porta- 
til. O pnmeiro yerdadeiro computadtir pessoal ponatil lot o Osbome-i que. com 11 quilos, era mais um compu¬ 
tador *arrastiivcr do que um computador portiitil. Ainda assim. cni prova de que a idćia de um computadtir 
ponatil era possfvel. O ()sbome-l foi um modesto sucesso comercial, mas um ano mais tarde a Compaq lanęou 
seu primeiro clone portatil do IBM PC e rapidamente sc estabeleceu como a lider no mercado de computado¬ 
res portateis. 

A versao inicial do IBM PC vinha equipuda com o sistema operacional MS-DOS fomecido pela entao mimis- 
cula Microsoft Corporation. Assim como a Intel conseguia produzir CPUs cada vez mais potentes. a IBM e a 
Microsoft conscguirum desenvolver um sucessor do MS-DOS denominado OS/2, quc apresentava uma interface 
grafica dc usuiiritt semelhante ii do Apple Macintosh. Ao mesmo tempo, a Microsoft tambem desenvolvia seu pró¬ 
prio sistema operacional. o Windows. que rodava sobrc o MS-DOS caso o OS/2 nao pegasse. Para cncurtar u histo¬ 
ria. o OS/2 nao pegou. a IBM e a Microsoft livcram uma ruptura notavcimenlc piiblica e a Microsoft toi adiantc e 
transformou o Windows cm um enorme sucesso. O miało como u mimiscula Intel c a mais insignificante ainda 
Microsoft conscguirum destronur a IBM. uma das maiores. mais rieas c mais poderosas eorporaęóes da história 
mundial, e uma pariibolu sem duvida contuda com grandes detalhes nas escolas de adiwnistraęao dc empresas de 
todo o inundo. 



Com o sucesso do 8088 em maos. a Intel continuou fazendo versóes maiores e melhores dele. Particularmente 
digno dc nota era o 386. lanęado em 1985. que foi. em essencia. o primeiro Pentium. Embora os Pentium moder- 
nos sejam muito mais rapidos do que o 386. em termos de arquitetura o moderno Pentium ć basicajnente um 386 
melhorado. 

Em meados da decada de 1980. um novo desenvolvimento denominado RISC comeęou a se impor. substituin- 
do complicadas arquiteturas (CISC) por outras bom mais simples. embora mais nipidas. Na dćcada de 1990 comc- 
ęaram a apareecr CPUs supercscalares. Essas maquinas podiam cxccutar vanas instruęóes a< mesmo tempo, mui 
tas vezes em ordem diferente da que aparccia no programa. Vamos apresentar os conceitos de CISC. RISC c 
supercscalar no Capitulo 2 e discuti-los minuaosnmenie em todo este livro. 

Ale 1992, computadores pcssoais cram de 8, 16 ou 32 bits. Entao a DEC apareceu com o rcvoIueiontiria Alpha 
de 64 bits, urna verdadeira maquinn RISC de 64 bits eujo desempenho ultrapassava por grandę margem o de todos 
os outros computadores pcssoais. Seu sucesso foi modesto. mas quosc urna decada se passou antes quc as maqui- 
nas dc 64 bits comeęasscin a ter grandę sucesso e, na maior punc das vezes. como servidores de lopo de linha. 

1.2.6 A cpiinta geracao — computadores invisiveis 

Em 1981, o govcmo japones anunciou quc cstava plancjando gastar 500 milhóes de dólares para ajudar empre- 
sas japonesas a desenvolvcr computudores de quinta geraętio quc seriam baseados em inteligencie artificial c represen- 
tariam um salto quilniico em reluęao aos computadores burros’ da quarta geraęao. Como ja tinham visto empresas 
japonesas se apossarem do mercado em muitos setores. dc maquinas fotognificas a estórcos e aparelhos dc televisao, 
os fabricantcs de computadores amcricanos e europcus forum de zero a panico touii em um miiissegundo, exigindo 
subsidios do govemo e outras eoisas. A despeito do grandę barulho, o projeto japomis da quinta geraęao basicamente 
fracassou e foi abandonado sem alardc. Em ceno sentido, foi como a mdquina anaiitica dc Babbagc — urna ideia visio- 
naria, mas tao ii frente de seu tempo quc nem se podia vislumbrar a tecnologia nccessaria para rcalmente construf-la. 

Nao obstanie, uquilo quc poderia ser denominado a quinta geraęao na vcrdade aconteceu. mas de modo ines- 
perado: os computadores encolherum. O Newton da Apple, lanęado em 1993, mostrou que um compulador podia 
ser construfdo dentro de um invólucro que nao era maior do que um tocador de fttas cassete portdtil. O Newton 
usava escrita ii milo para entrada do usuiirio, o que provou ser um grandę obstaeulo, mas miquinas posteriores dessa 
classe. agora denominadas PDAs (Personal Digital Assistants — agenda* cletrónicas). aprimorurum as interfa- 
ces de usuiirio e tomaram-sc muito popularcs. Muitas dessas tćm quasc a mesma capacidadc de computaęao que 
computadores pcssoais de alguns anos airds. 

Mas mesmo as PDAs nao sao rcalmente revoluciomirias. Ainda mais importantes s3o os computadores 'invisfveis', 
embutidos em eletrodomesticos, relógios, cartfles banedrios e divcrsos outros dispositivos (Bechini et al„ 2004). Esses 
proccssadores pennitem maior funcionalidade c custo mais baixn em urna ampla vnriedade de aplicaęóes. Considerar 
esses chips como urna verdadeira geruęilo e discutivcl (estao por ai desde a dćcada de 1970, aproximadamentc i. mas 
eles estao rcvolucionando o modo de ftincionamcnto dc miiharcs de aparclhos e outros dispositivos. Jń comeęaram a 
causar um importantc impacto no mundo e sua influencia crcsceni rapidamente nos próximos anos. Um aspeeto pccu- 
liar desses computadores embutidos ć que o hardware e o software cos tu mam ser pmjctados em cnnjunto (Henkel et 
ai., 2003). Voltarcmos a eles mais adiantc neste livro. 

Sc considerarmos a primeira geraęao como mdquinas a vdlvula (por exempio, o EN1AC), a segunda geraęao 
como mdquinas a transistores (por cxcmpio. o IBM 7094). a terceira geraęao como as pnmeiras mikjuinas de cir- 
cuito integrado (por excmpio. o IBM 360). e u quarta geraęao como computadores pessoais (por excmplo, as CPUs 
Intel), a rcal quinta geraęao ć mais urna mudanęa dc paradigma do que urna nova arquitetura especftica. No futuro, 
computadores esiarao por toda pane e embutidos em rudo — na verdade. invisfveis. Eles scrao parte da estru tura da 
vida didria, abrindo portas, accndcndo luzes. distrihuindo dinheiro e miiharcs de outras eoisas. Es.se modclo. urqui- 
tetado pelo falccido Mark Weiser. foi denominado originalmentc computaęao uhiqua, mas o termo computaęao 
pervasiva tumbem e usado agora com freqtiencia (Weiser, 2002). Ele muduru o mundo com tania profumlidade 
quunto u Revoluęao Industrial. Nao o discutiremos mais neste livro. mas se o leitor quiscr mais informaęócs sobre 
elc. dcve consultar: Lyytinen e Vm>. 2(X)2: Saba e Mukhertee. 2003: e Sakamura. 2002. 

i .3 Zoológico dos computadores 

Na scęao anterior, apresentamos urna brcvc historia dos sistemas dc computaęao. Nesta. cxaminarcmos o pre- 
scnlc e olharcmos para o futuro. Embora computadores pessoais sejam os computadores mais eonhceidos, ha 
outros tipos de mdquinas hojc em dia. ponanto. vale a pena dar urna pcsquisadu no que ha mais por ot. 

1.3.1 Forcas tecnológicas e económicas 

A indtistria dc computadores estd avanęando como nenhuma outra. A foręa propulsora primaria e a capacidadc 
dos fabricantcs de chips de empacolur cada vez mais transistores por chip todo ano. Mais transistores. quc sao mintis- 
culos interruptores elclrónicos, significam memórias maiores e processadorcs mais poderosos. Gordon Moorc. co- 
fundador c ex-presidente do consclho da Intel, urna vez disse. brineando, que, se a tecnologia da aviaęao tivcsse pro- 
gredido tao rapidamente quanto a tecnologia dc computadores. um aviao custana 5(X) dólares e daria urna volta na 
Terra em 20 minutos com 5 galóes dc gasoiina. Entretanto. seria do tamanho dc urna caixa de sapatos. 
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Especificameme, ao prcparar u mu palestra para um grupo do setor. Moore observou que cuda nova geraęao dc 
chips dc memória estava scndo lanęada mes unos após a antcrior. Urna vcz quc cada geraęao linha quatro vezcs mais 
incmoria do que sua uniccessora. ele pcrccbcu quc o numero de transistores em um chip estava crescendo u urna 
taxa conslante e previu que cssc crescimento continuaria peias próximas dćeudas. Essa observaęao ficou conhecida 
como lei de Moore. Hoje, a lei de Moore eostuma ser cxpressa di/endo que o numero dc transistores dobra a cada 
18 mcses. Notę que isso equivalc a um aumento dc 60% no mimem de transistores por ano. Os tamanhos dos chips 
de mcmória e suas datas de lanęamento mostrados na Figura 1.6 confirmam que a lei de Moore estd valendo ha mais 
dc trśs dćcadas. 

Garn que a lei dc Muorc nao e urna lei rcal. mas urna simplcs observaęao empirica sobre quao rapido a fTsica 
do estado sólido e os engenheiros estao uvunęando o estado-da-artc c uma prcvisao de que eles continuaruo na 
mesma taxa no futuro. Alguns obscrvadores do setor esperam quc a lei dc Moore continue viilida ao menos por mais 
urna decuda, talvez ate por mais tempo. Naquele ponlo os transistores consistiruo em alguns poucos dtomos, um 
numero muito pequeno para garantir a confiabilidade, embora seja possfvcl conceber que os progressos na compu- 
tucao quanuca possani mudar esse ccnurio (Oskin et al.. 2002). Contudo. oulros observadorcs esperam que dissipa- 
cao dc energia, fuga dc correntc e outros elcitos apurccam antes e causem sćrios problcmas quc prccisam ser resol- 
vidos (Bose. 2004; Kim et al., 2003). 

A lei de Moore criou o que os economistas chamam dc circulo virtuoso. Progressos na tecnologia (transisio- 
rcs/chips) levam a melhores produtos e preęos mais baixos. Preęos mais baixos levam a novas aplicaęóes ( ninguem 
estava fabricando videogames para computadores quando estes custavam 10 milhócs dc dólures cada). Novas apli¬ 
caęóes levam a novos mercados e a novas empresas, que surgem para aproveilar as vanlagcns desses mercados. A 
existfincia dc todas essas empresas leva a concorrencia que, por sua vez, cria dcmanda económica por melhores tcc- 
nologias com as quais vencer outros empresas. Bntiio o circulo deu uma volta completa. 

Um outro fator quc trouxc avanęo tecnoiógico foi a primeiru lei do software de Nathan (trata-se de Nathan 
Myhrvoid, antigo alto executivo da Microsoft). Diz a lei: "O software ó um gas. Ele se expande ate preencher o 
reeipiente que o contem”. Na decada de 1980 o processamento de tcxtos era feito com programas como o trolT 
(ainda usado para estc livro). O troff ocupa quilobytcs dc memória. Os modemos processadores dc textos ocupam 
megabytes dc mcmória. Os futuros sem duvidu cxigirao gigabytes de memória. (Por uma primeira aproximaęao. 
os prefixos quilo, mega e giga significam mil, milhao e bilhao, respectivamente. mas veja a Seęuo 1.3 para outros 
detalhes). O software que continua a adquirir caracteristicas (nao muito diferente dos barcos que estao sempre acu- 
mulando cracas) cria uma dcmanda constante por processadores mais vcloz.es. memórias maiores e mais capaci- 
dade dc E/S. , 

Enquanto os ganhos cm transistores por chip linham sido vultuosos ao longo dos unos, os ganhos em outros 
tecnolagias nao (oram menores. Por excmplo, o IBM PC/XT foi lanęado om 1982 com um disco rigido de 10 
megabytes. Vintc anos depois. discos rigidos de 100 gigabytes erom comuns nos sucessores do PC7XT. Esse avan- 
ęo dc quatro ordens dc grande/a cm 20 anos representa um aumento de capacidade de 38%' ao ano. Contudo. medir 
o avunęo em discos e mais enganosu. visto quc ha outros purametms alem du capacidade. como taxas (de transie - 
rćncia) dc dados. tempo de busca c prcęo. 

Nao obstante. qua.se qualquer metodo dc mcdięao mostrara quc a razao prcęu/descmpenho aumentou dcsdc 
1982 pelo inenos 50% ao ano. Esses enormes ganhos cm desempenho do disco aliados ao tato de que o vo!uinc de 
dólares dc discos dcspachados do Silicon Valley (Vale do Silfcio) ultrapassou o de chips de CPU levou Al Hoagland 
a sugerir que o nome do local cslava errado: deveria ser Iron Oxidc Valley (Vale do Óxido de Ferro), uma vcz. que 
ć esse o materiał dc gravaędo utilizado em discos. 

Uma outra area que tcve ganhos espctacularcs foi a dc tclccomunicaęóes c redes. Em menos de duas dćcadas 
fomos de modems de 300 bits/s para modems analógicos de 56 mil bits/s. e da/ para redes de libra ótica de IG 12 
bits/s. Os cabos dc telefonia u-ansatlanticos de Obra ótica. como o TAT-12/13. custam cerca dc 7(M) milhócs dc dóla¬ 
res, duram dcz anos c podem transportar 300 mil ligaęócs tclefónicas simultancas. o que sc trądu/, em menos do quc 
I ccnlavo dc dolar para uma ligaęao tciefónicu intereontinental dc dcz. minutos. Sistemas óticos de comunicaęao quc 
funcionam a 10 12 bits/s. a distancias que passam de 100 km e sem amplificadorcs, mostraram ser viaveis. Nem e 
preciso comenlar aqui o crescimento cxponencial du Internet. 
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1.3.2 Tipos de computador 

Richard Hamming, anligo pesquisatior do Bell Labs. certa vez obscrvou quc urna mudunya dc uma ordem de 
grandeza cm quantidadc causa uma mudanęa na qualidade. Assim, um carro de corrida que alcanya 1.000 km/h no 
deserto de Ncvada e um lipo dc tnaquina fundamentalmentc difercnlc dc um carro normal que alcanęa 100 km/h em 
uma rodovia. De modo scmclhanic. um arranha-ceu de I(X) andares nao ó apenas um ediffcio dc apartamentos dc 
10 andares cm cscala maior. E, no que sc refcrc a computadorcs, nao estamos talando dc fatores de 10 mas. no 
decurso dc tres decadas. estamos falando de fatores na casa de milhiio. 

Os ganhos concedidos pela lei de Moorc pudem ser usados de varios modos. Um deles e construir computa- 
dores cada vez mais poderosos a preyo constante. Uma outra abordagem e construir o mesmo computador por uma 
quantia de dinheiro cada vez menor a cada ano. A industria dos computadorcs fez arnbas as coisas e ainda mais, o 
que rcsultou na ampla varicdadc de computadorcs disponiveis agora. Uma categorizayao muito esqucmatica dos 
computadores cxistcntes hojc e dada na Tabela 1.3. 

Nas seyócs seguintes examinaremos cada uma dessas categorias e discutircmos brevementc suas propriedades. 


Taheia 1.3 Tipos de computador disponiveis atualmente. Os preęos devem ser vistos com certa condescen- 
dćncia (cum grano salis ). 


[ Ttpo 

1 Preęo (DS$| 

Exemplo de aplicaęao a 

Computador descartavel 

0.S 

Cartóes de felicitaęao 

Micro controlador 

S 

Relógios. carros. eletrodomesticos 

Computador de jogos 

50 

Videogames domesticos 

Computador pessoal 

500 

Computador de mesa ou notebook 

Senńdor 

5 K 

Senńdor de redę 

Canjunto de estaędes de trabalho 

50-500 K 

Mlmssupercomputador departamentai 

Mainframe 

5 M 

Processamento de dados em bloco em um banco 


1.3.3 Computadores descartaveis 

Na extremidade inferior desse tipo encontnunos um dnico chip colado na parte interna dc um cartdo de con- 
gratulayócs quc toca Feliz Anivcrsario' ou ‘La vem a noiva', ou qualquer outra dessas musiquinhas igualmcnte hor- 
rorosas. O autor ainda nao encontrou um cartao de uoudolencias que tocasse uma marcha funebrc. mas, como lan- 
you essa ideia em publico, espera encontra-lo em brcve. Para quem creseeu com mainfrantes de muitos milhóes de 
dólarcs, a ideia dc computadores dcscartdvcis faz tanto sentido quanto a de um avi3o dcscaruivcl. 

Contudo, os computadores descartiveis chcgaram para ficar. O descnvolvimento provavelmentc mais impor- 
tantc na drca dos computadores dcscartavcis e o chip RFID (Radio Frcquency IDcntification — identificayuo 
por rjdiofreqiienciu). Agora e poss(vel fabricar por alguns centavos chips RFID sem bateria com menos de 0,5 
mm dc espessura que contćm um miniisculo radiotransponder e um ilnico mimem de 128 biis embulido. Quando 
pulsados por uma antena cxtcma. san alimentados pclo sinal de radio de entrada por tempo suficientc para Lransmi- 
tir seu mimem de volta ii antena. Conquanto os chips sejam minusculos. suas implicayóes com certcza ndo s3o. 

Vamos comeyar com unta apiicayao corriqueira: acabar com os códigos de barras de produtos. Jd foram feitos 
testes experimentais nos quais o fabneante ancxou chips RFID (em vez dc códigos dc barras) a scus produtos a 
venda cm lojas. O clicntc escolhc scus produtos, coloca-os em um carrinho de compras e apenas os leva para fora 
da loja. sem passar pela eaixa registradom. Na saida da loja um leitor munido dc uma antena cnvia uma sinal soli- 
citando que cada proiiuto sc identilique. o que csida um faz por meio de uma curta transmissdo sem tio. O cliente 
tainhćm e idcntiticado por um chip embutido cm seu cartao banedrio ou de crćdito. No finał do mes, a loja envia ao 
clicntc uma fatura idcnlilicada por itens referenie as compras do mes. Se o cartao dc banco ou cartao dc crćdito 
RFID do cliente nao fur valido, um alarmc e ativudo. Esse sisteina nao só elimina a necessidade de caixas e a cor- 
respondente espera na Ula. mas tambem serve como sistema antifurto porquc de nada adianla esconder um produ- 
to no bolso ou na sacola. 

Uma pmpriedadc micrcssanic desse sistema ć que. emitora os códigos de barra identifiqucm o lipo de produ- 
to, nao idcntilicam o itetn especifico. Com 128 bits a disposiyao. o RFID faz isso. Como conseqiiencia. cada paco- 
tc de aspinna. por cxcmplo. em um supermercado. tera um aidigo RFID difercnte. Isso signitica que. se um fabri- 
cante de medieamentos descobrir um deleito de fabrieaęao em um lote de aspirinas após cle ter sido dcspaehado. 
poderd inlormar a todos os supermercados do mundo inteiro para que faęam disparar o alarme sempre que um clien- 
tc comprar qualquer pacote cujo mimero RFID esteja na l'aixa afetada. mesmo que a compra aconteya em um pais 
distantc. meses depois. Os pacotcs de aspirina que nao peiienęam ao lote defeituoso nao farao soar o alarme. 

Mas rotular pacotes de aspirina, de bolachas. de biseoitos para cachorro e só o comeyo. For quc parar nos bis- 
coitos para cachorro quando vocć pode rotular o próprio cachomt? Donos de animais de estimayao ja estao pedin- 
do aos vetcrindrios para implantar chips RFID cm seus animais dc modo quc possani ser raslreados sc forem per- 
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oo didos ou roubados. Fazcndciros tambem vao querer murcar seus rcbanhos. O próximo passo óbvio <i pais nervosos 

pedircm a scus pediatras que implantem chips RF1D cm sous tilhos para o caso dc eles sc pcrderem ou serem 
seqiiesirados. Ja quc estamos nisso, por que nao fazer com que hospilais identiriqucm todos os rccem-nascidos para 
evitar troca de bebes? F. os govemos e a poKcia sem diivida lerao muitas boas razfies para rastrear todos os cida- 
daos o tempo todo. Agora, as 'itnplieaęóes' dos chips RFID a que aludimos anteriormente estiio lieando um pouco 
mais cl ar as. 

Urna outra aplicaęao - um pouco menos conimvcrtida — de chips RFID ć o rastreamento dc vcfculos. 
Quando uma fila dc carros com chips RFID cinbutidos estivcrcm trafegando por u ma rodovia e passarem por uma 
leitora, o computador ligado a Icitora leni uma lista dos carros que estiveram por ali. Esse sistema facilita o rastrea¬ 
mento da Iocalizaęao de todos os carros quc passam por uma rodoviu, o que ajuda Ibmecedorcs, scus clientes e as 
rodovias. Um esquema semelhunte pode ser aplicado a caminhóes. No caso dos carros, u idćia pode ser usada para 
cobrar pedagio por mcios elctrónicos. 

Sistemas de transportc de bugagens aćrcas e muitos outros sistemas de transporte de encomendas lambćm 
podcm usar chips RFID. Um sistema cxperimcntaJ testado no aeroporto de Hcuihmw cm Londrcs permilia que os 
passageiros eliminasscm a palavra 'carregar' da mensagem •carregar sua bagagem'. As mai as dos passageiros que 
pagavum por esse scrvięo rcccbiam um chip RFID. eram dcscarrcgadas em separado no aeroporto c entregues dirc- 
lamentc nos hotćis dos passageirus cm qucstao. 

Enirc outras utilizagóes de chips RFID estiio carros quc chcgam a seęao de pintura da linha dc montagem com 
a cor que devcm ter jd especificada, roupas quc infonnam d mdquina dc lavar quc temperatura usar e muitas mais. 
Alguns chips podcm ser integrados com sensores dc modo quc bits de baixa ordcm possani conter temperatura, 
pressdo e umidadc corrcntes ou outra varidvel ambicntal. 

Chips RFID avunt;ados tambem contćm armazenamento permanente. Essa capacidadc lcvou o Europcan 
Central Bank a tomar a dccisao dc incorporor chips RFID u notas dc euros nos pr6ximos anos. Os chips registra- 
riam por onde as notas teriam passado. Isso nao somente tomaria a falsificagao de notas de euros praticamcntc 
impossivel, mas tambem facilitaria muito o rastreamento c a possivcl invalidaęao rcmota de rcsgatcs dc scqiicstros, 
do produlo dc assaltos e de dinheiro lavado. Quando o dinheiro vivo nao for muis anónimo, o futuro proccdimento 
padrao da pollcia poderia ser verificar por onde o dinheiro do suspeilo haveria pussudo rccenlcmente. Qucm prcci- 
sa implaniar chips em pcssoas quando suas cartciras estiio chcias dclcs? Mais uma vcz, quando o publice souber o 
que os chips RFID podem fazer. ć provavcl que surjam discussoes piiblicas sobrc o assunto. 

A tecnologia usada em chips RFID esbi se desenvolvcndo rapidamcntc. Os menores sao passivos (nao tem ali¬ 
mentacjo interna) e podem apenas transmitir scus numeros exdusivos quando consultados. Todavia, os maiores sao 
ativos. podcm conter urna pequena bateria e um computador primitivo, e siło eapuzes de fazer alguns calculos. Os 
smarl cards usados em transaęóes financeiras estao nesta calcgoria. 

Chips RFID sao diferentes nao somente por serem ativos ou pussivos. mas tambem pela faixa dc radiofrcqiićn- 
cias a qual respondem. Os quc funcionam em baixas frequćncias tem uma taxa de transferćncia dc dados limitada, 
mas podcm ser eaptados a grandes distancias por uma antena. Os que funcionam em alias lreqUĆncias tem uma laxu 
de transferćncia de dados mais altu e aicancc mais reduzido. Os chips lambćm tem outros tipos dc diferenęas c estiio 
sendo inelhorados o tempo todo. A Internet esUi repleta de informaęócs sobre chips RFID, e o sile www.rfid.org ć 
um bom ponto dc partida. 

1.3.4 Microcontroladores 

No degrau seguinte da escada temos compuladores que sao embutidos em dispositwos que nao siio vcndidos 
como computadores. Os compuladores embutidos. as vczes denominados microcontroladores, gerenciam os dis- 
positivos e manipulam a intcrfacc dc usuaijo. Sao cncontrados cm grandę variedade dc aparelhos diferentes. entre 
eles os seguintes. Alguns cxcmplos de cada catcgoria sao dados entre parcnteses. 

1. Eletrodomćsticos (rddio-rclógio. mdquina dc lavar. sccadora. fonio dc microondas. alarme ant i lurto). 

2 . Aparelhos de eomunicaędo (tclcfonc sem fio, telefone eelular. Fax. pager). 

3. Perifćricus de coinpuuulores timpressora. seanner. modem. drivc de CD-ROM). 

4. Kquipamentos de entrctcnimento (VCR. DVD. aparelhos de soin. MP3 player, transdulorcs de TV). 
s. Aparelhos de rcprodu«;ao ile imagens (TV. camera digital. camcordcr. Icntcs. Ibtocopiadora). 

6. Kquipamentos medicos (raio X. MRI (ressondncia magnetiea). momtorcardfaco, icrmómetro digital). 

7. Sistemas dc urmamenios militarcs (missil telcguiado. ICBM tmissil balfslico inlcrcontinental). torpedo), 
a. Dispositivos de vcndas (maquina de vcnda automatica. eaixa eletrónieo (ATM). eaixa rcgistradora). 

9. Brinqucdos l bonecas quc lałam, eonsoles dc jogos. carro ou barco com radiocontrolc). 

Um eurro de primeira linha poderia fucilmcnte conter 50 microcontroladores quc cxecutum subsistemas. como 
Ircios antitravamento, uijeęao dc eombustfvel, radio e GPS. Um aviao u jato poderia tacilmcnte ter 2(X) ou mais 
dcles. Uma familia poderia possuir fucilmcnte eentenas dc compuladores sem sabor. Dcntro dc alguns anos. prali- 
eainente tudo o que funciona por energia eletrica ou baterias conteni um microeontrolador. Os numeros dc micro¬ 
controladores vendidos todo ano deixam longe, por oniens dc grandeza. todos os outros tipos de compuladores, 
exeeto os descaruivcis. 

Enquanto chips RFID sao sistemas minimos. ininicontroladores sao computadores pcquenos. mas completos. 
Cada microeontrolador tein um processador. memória e capacidadc de E/S. A capacidadc dc E/S habituaimente 
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inelui dctectar os botóes c interruptorcs do apardho e controlar suas luzes, moniCorcs, sons, motorcs Na maioria 
dos casos o software esta incorporado no chip na forma de uma memória somente de leilura eriada quando o micro- 
conirolador e fabricado. Os microcontroladores sdo Je dois tipos gerais: propósito geral e propósilo especifico Os 
primeiros sao apenas computadorcs pequenos, porem comuns; os ultimos tem uma arquitctura e um conjunió de 
instruęóes dirigido para alguma aplicaęao especffica, por cxemplo. multimfdia. Microcontroladores podem ter vcr- 
sóes de 4. 8, 16 e 32 bits. 

Contudo, mesmo os microcontroladores de uso geral aprcscntam imponanies diferenęas em rclaęSo aos PCs. 
Em primeiro lugar. ha a qucstao relacionada ao custo: uma empresa que compra miihóes de unidades pode hasear 
sua escolha em diferenęas de preęos de I centavo por unidade. Essa restricao obriga os labricantcs de microcontro¬ 
ladores a optar por arquiteturas muito mais eom base em custos de fabricaęńo do quc em chips quc custum cenie- 
nas de ddlares. Os preęos de microcontroladores variam muito dependendo de quantos hits tern. de quanta memó- 
na tern e de quc tipo e a memória. ulem dc outros fatores. Para dar uma idćia. um mierocontrolador de 8 bits 
comprado cm volume sufieientemente grandę pode custar apenas 10 ccntavos de dolar por unidade. Esse preęo ć o 
que possibtlita inserir um computador em um rtidio-relógio de 9.95 dólorcs. 

Etn segundo lugar. praticamcnte todos os microcontn>ladores funcionam em tempo rcal. Eles reeebem um estf- 
mulo e devcm dar uma resposta instantanea. Por exemplo, quando o usuurio aperta um bo tao. em geral uma luz se 
accnde c nao dcvc haver nenhuma demora entre presstonar o botao e a luz se acender. A necessidade de funcionar 
em tempo rcal costuma causar impacto na arquitetura. 

Em tcrceiro lugar, os sistema embutidos muitas vczes tern limitaęócs ffsicas em termos de tamanho. peso. con- 
sumo dc bateria e outras limitaęóes clćtricas e mccdnicas. Os microcontroladores neles utilizados devem ser proje- 
lados tendo essas restrięóes em mente. 

1.3.5 Computadores de jogos 

lim nfvel acima estao as maquinas de videogame. Sao computadores normais. eom rccursos grdficos espcciais 
e capacidade de som. mas software limitado e pouca capacidade de extcnsao. Comcęaram como CPUs de baixo 
valor para jogos simples. como pinguc-pongue em aparelhos de tclevis3o. Com o passar dos anos evolufram para 
sistemas muito mais poderosos, riva(izando com o desempenho de computadores pcssoais e ate ultrapussando esse 
desempenho em certas dimensóes. 

Para ter uma idćia do que esta dentro de um computador de jogos, considerc a especificaęao de trćs produtos 
populares. Primeiro, o Sony Playstation 2. Ele contćm uma CPU proprietaria de 295 MHz e 128 bits idenominada 
Emotion Engine), que e bascada na CPU MIPS IV RISC. O Playstation 2 tambćm contćm 32 MB de RAM. um 
chip grńfico de 160 MHz fabricado por encomenda. um chip dc audio de 48 canais fabricado por encomenda e um 
tocador dc DVD. 

Em segundo lugar. o Microsoft XBOX. Ele contćm um chip Intel Pentium III dc 733 MHz com 64 MB de 
RAM. um chip grafico dc 300 MHz fabricado por encomenda. um chip dc audio de 256 canais fabricado por enco¬ 
menda, um tocador dc DVD e um disco rigido dc 8 GB. 

Em terceim lugar, o Nintendo GamcCube. Ele contćm uma CPU de 485 MHz e 32 bits Idenominada Gckko), 
dcrWada da CPU IBM PowerPC RISC e fabricada por encomenda. 24 MB de RAM. um chip grafico de 200 MHz 
fabricado por encomenda. um chip de audio dc 64 canais e um disco ótico pmprietario de 1,5 gigabytes. 

Embora essas maquinas nio sejam tao poderosas quanto os computadores pcssoais produzidos no mesmo 
periodo de tempo, clas nao ticam muito utras c em certos aspcctos estao a frente: por cxcmplo: a CPU de 128 bits 
do Playstation 2 ć tnoior do que a CPU de qualqucr PC. embora a vclocidade de relógio seja muito mais baka. A 
Principal difcrenęa entre uma maquina de jogos e um PC nao esló tanio na CPU. mas no fato de que mdquinas de 
jogos sao sistemas fcchados. Os usuorios nao podem expundir a CPU com cartóes plug-in. embora as vezes sejam 
Idmecidas inlerfaces USB ou FircWirc. Alćm disso. e talvcz o mais importanto. maquinas dc jogos siło cuidadosa- 
mente otimizadas para uma linka irea de uplicuęun: jogos dc alla intcrauvidadc em 3-D com alta qualidade de iudio 
eslerco. Todo o resto ć sccundario. Essas restnęócs dc hardware c software. velocidadcs dc relógio bnixas. ausen- 
cia de um monitor de alta nesoluęiio e. habitualmente. ausćncia de um disco rigido possibilitam a construęao e a 
vcnda dessas maquinas por um pręgo mais bako do quc o de computadores pcssoais. A despeito dessas restrięócs. 
sao vcndidas miihóes dessas mdquinas dc jogos. 

As mesmas empresas que fabricam as principais mdquinas de jogos tambćm produzem maquinas de jogos por- 
tatcis. quc sao alimentadas por balerias c estao mais prtktmas dos sistemas embutidos que ja discutimos do que dos 
computadores pessoais. 

1.3.6 Computadores pessoais 

Em seguida. chegamos aos computadorcs pcssoais nos quais a maioria das pessoas pensa quando ouve o termo 
computador'. O termo computadores pessoais' abrange computadorcs de mesa e notebooks. Costumom vir equi- 
pados com centcnas de megabytes dc memória e um disco rigido que contćm ccrca de 100 gigabytes de dndos. um 
drive dc CD-ROM/DVD, modem, cartao dc som, intcrface de redę. monitor dc alta resoluęSo c outros perifćricos. 
T5m sistemas operacionuis claborados, muitas opvócs dc expansao e umu imensu fuka de softwures disponiveis. Hu 
quem rescrve o termo 'PC' para as maquinas que tern uma CPU Intel e usc 'estagiio de trabalho' para as equipadas 
eom um chip RISC de ultima geraęao, como as Sun UltraSPARC. Contudo. eonccituulmente hu pouca difcrenęa 
entre elas. 


Capilulo I Intioduędo 



Orgamzaęao Estruturada de Computadotes 


O 

CN 


Figura 1.7 

A piaca de circuito impresso 
estd no ooraęao de cada 
computador pessoal. E3sa e 
urna fotografia da płaca Intel 
D875PBZ. Direitos de 
reproduęao da Intel 
Corporation, 2003, 
uttlizacao pemutida._ 


1. Soquctc Pentium 4 

2. Suporte de chip 875 P 

3. Soquetes dc memória 

4. ConectorAGP 

O eoraęao de lodo computador pessoal e urna płaca de circuito impresso que esta no fundo da caixa. Em genil 
essa płaca contóm a CPU, memória, vdrios dispositivos de F/S (como um chip de som c possivelmente um modem), 
bem como interfaces para tcelado, mousc, disco, rede etc., e alguns encaixes (, slota) de cxpansao. A Figura 1.7 mos- 
tra a foto de urna dessas placas de circuito. 

Nolcbooks sao basicamentc PCs cm urna cmbalagem menor e utilizam os mesmos componcntcs de hardware, 
mas em lamanhos menores. Tambem executam os mesmos softwares que os PCs de mesa. 

Um outro tipo de raaquina estreitamente relucionado sao as PDAs. Embora sejam ainda menores do que os 
notebooks, cada uma tern uma CPU, memória, tcclado, visore a maioria das outras caracterislicas dc um eompuui- 
dor pessoal em miniatura. Uma vez que grandę parte dos leitores provavelmente conhece computadores pessoais 
muito bem, ndo sera preciso fazer uma apresentaęiio inirodutória mais detalhada, 

1.3.7 Servidores 

Computadores pessoais reforęados ou estaęóes de trabalho sao muito usados como servidores de rede, tanto 
em redes locais (em geral dentro de uma tiniea empresa) quanto na Internet. Os servidores vem em coniiguraęócs 
eom um unico processador e eom multiplos processadores, tćm gigabytes de memória, eentenas de gigabytes dc 
espaęo de disco rfgido e capacidade para trabalho em rede de alta velocidade. Alguns deles podcm manipular milha- 
res de transaęóes por segundo. 

Em termos de orquilctura. contudo. um servidor eom um unico processador na vcrdadc nao ć muito difcrenlc 
dc um computador pessoal cont um unico processador. Apenas e mais rapido, maior e tern mais espaęo dc disco, e 
possivelmenle ct)nexao de rede tnais rapida. Servidores cscculam os mesmos sistemas operacionais que os compu¬ 
tadores pessoais. normalnienie alguma variaęao de Unix ou Windows. 

1.3.8 Conjuntos de estaęóes de trabalho 

Devido iis melhorias quase contfnuas na relaęilo preęo/desempenho de estaęóes dc trabalho e computadores 
pessoais, nos ultimos anos os projetistas de sistemas comeęaram a conectar grandes ntimeros deles para formar 
COWs i Clusters of Workstations) ou, as vezes. simplesmente clusters. Eles consistem em computadores pessoais 
ou estaęóes dc trabalho padrao coneetados por redes de gigabyte/s e exccutam software especial que permitc a todas 
as maquinas trabalharem juntas em um unico problemu, muitas vezes cientffico ou de engenharia. Normalmente sao 
oque se cosmma denominar COTS (Commodity Off TheShełf— mercadoria de prateleirai, computadores que 
qualquer um pode comprar de algum vendcdor de PCs comuns. O principal acrescimo e a capacidade de trabalho 
em rede de alta velocidadc. mas iis ve/.es isso tambem e um cartao de rede padrao encontrado no comercio. A csca- 
la desses conjuntos pode ser aumentada com facilidadc c vai desde um punhado de mdquinas ale milhures delas. 
Em geral, o falor limitador e a verba dispon(vel. Devido ao baixo preęo por componenle. agora departamentos indi- 
viduais podcm ter essas maquinas. 



5. Interfacc de disco 9. Tccnulogia de resfriuniento 

6. Gigabit Ktliemet 10. BIOS 

7. Cinco encaixes para PCI 

8. Portas USB 2.0 
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Uma outra uulizaęao dc um COW e como urn scrvidor Web de Internet. Quando um site espcra receber _ 
milhares de requisięóes por minuto para suas ptiginas. a soluęao mais económica costuma ser um iglomerado com 
ecntenas. ou alć milhares. dc servidores. Assim, as requisięóes que chegam sao distribuidas pelos servidorcs per- 
mitindo que scjam proeessadas em paralelo. Quando usado dessa maneira. um COW normalnienie ć dcnominado 
uma server farm. 

1.3.9 Mainframes 

Agora chegamos aos mainframes: computadorcs que ocupam uma saJa e nos fezem voltar ii dćcada dc 1960. 

Em muitos casos, essas miiquinas sao as dcsccndcntes dirctas dos mainframes IBM 360 adquiridos hri dćcadas. Na 
maioria nao sao muito mais rapidas do que servidorcs de grandę potćncia. mas sempre tern mais capacidade de E/S 
e costumam ser equipadas com vastas coleęócs de discos quc contem normalnienie milhares de gigabytes de dados. 

Embtira sejam caros. ć comura serem mantidos cm funcionamcnto por causa do cnorme invcstimento em software, 
dados. procedimcntos de opcraęao e pessoal que reprcseniam. Muitas empresas acham mais barato pagar alguns 
milhóes de dólares de vez em quando na compra de um novo do que sequer pensar no csforęo exigido para repro¬ 
gram ar todas as suas aplicaęóes para maquinas menores. 

E essa classe dc computadores que lcvou ao infamę problemu do Ano 2000. causado pelos programado- 
res Cobol nas dćcadas de 1960 c 1970 porque rcpresentavam o ano com dois algarismos (digilos) decimais para eco- 
nomi/ar memória. Eles nunca imnginuram quc scus softwares durariam tres ou quatro dćcadas. Embora o desastre 
previsto nao tenhu ocorrido dcv ido ao imenso trabalho realizado para solucionar o problemu, muitas empresas repe- 
tiram o mesmo erro quando simpiesmente acrcscentaram mais dois dlgitos ao ano. O autor preve aqui o Gnał da 
civilizaę2o que conhecemos ii meia-noite de 31 de dczembro de 9999, quando 8 mil anos dc velhos program as 
Cobol falharem simultancamente. 

Alćm de sua ulilizacao para exccutar software herdado dc 30 anos de existencia. nos ultimos anos a Internet 
deu um novo fólego a esses mainframes. Ela achou um novo nicho. como poderosos scrvidorcs de Internet, por 
cxemplo, porque podcm manipular quanudades macięas de transaęóes de e-commcrce por segundo, em particular 
em empresas quc cxigcm imensas bases de dados. Embora o Poco deste livro seja PCs. servidores c microcontrola- 
dores, vamos examinar melhor os mainframes no Capttulo 5. 

Atć ha pouco tempo, havia uma outra categoria de compuuidorcs ainda mais poderosos do que os mainframes: 
os supercomputadures. Eles tinham CPUs extrcmamcntc rapidas. muitos gigabytes dc memória principol c discos 
e redes muito velozcs. Eram usados para cdlculos macięos nas iireas cientlfica e de engenhuria. como a simulaęao 
de colisiio de galaxias. a sinte.se de novos medicamcntos ou a modelagem do fluxo dc ar ao redor da asa dc um aviao. 

Contudo, nos ultimos anos. os COWs passaram a ofereccr a mesma capucidade de eomputaę3o a preęos muito mais 
baixos. e os vcrdadeiros supcrcomputadores agora sao uma raga cm extinęao. 

i.4 Exemplos de familias de computadores 

Ncstc livro vamos focalizar trćs tipos de computadorcs: computadorcs pessoais. servidorcs c computadores 
embutidos. Os computadorcs pessoais siio intercssantes porquc todo leitor sem duvida ja usou um. Servidorcs s3o 
interessantes porque executain todos os scrvięos na Internet. Por Gm. computadores embutidos sao invisfveis para 
seus usuorios mas controlam carros. televisores. fomos de microondas, maquinas de lavar c praticamcnte todo equi- 
pamento eletrico que custe mais dc 50 dólares. 

Nesta seęao farcmos uma brcvc introduęao aos tres computadorcs que serao usados como exemplos no resto 
do livro, um de cada uma dos tres categorias citadas. Sao eles o Pentium 4. o UltraSPARC Ul e o 8051. 

1.4.1 Introduęao ao Pentium 4 

Em 1968. Robert Noyce. o invcntor do circuito integrado de sillcio. Gordon Moore. aquelc famoso da lei de Moorc. 
e Arthur Rock. um capitalista dc risco de Sun Francisco, tormanim a Intel Corporauon para fabricar chips dc memória. 

Em seu primeim ano de opcraęao a Intel vendeu apenas 3 mil dólares dc chips, mas dcsdc entao o negócio melhotou. 

No Gnał da dćcada de 1960. as calculadoras eram grandes maquinas elctromecanicas do uimanho dc unia 
modemu impressora a laser c pesuvam 20 qui!nx. Em setembro de 1969, uma empresa japonesa. a Busicom. con- 
sultou a Intel sobre um pedido de fabricacao de 12 chips sob encomcnda para uma caiculadora cletrónica proposta. 

Ted Hoff. o engenheiro da Intel designado para esse projeto. analisou o piano e percebeu que podia colocar uma 
CPU de uso gcruJ de 4 bits em um linteo chip. que faria a mesma coisa e seria mais simplcs c tambem mais banita. 

Assim, nascia. em 1970. a primcira CPU de um só chip. denominada4004 de 2300 transistores (Faggin et al., 1996). 

Vale a pena observar quc nem a Intel nem a Busicom tinham a minima idćia do que acabuvam de fazer. Quando 
a Intel decidiu quc poderia valcr a pena tentar usar a 4004 em outros projetos. propos a Busicom comprar de volta 
os dircitos ao novo chip devolvendo os 60 mil dólares que aquela empresa tinha pago il Intel para dcscnvolve-lo. A 
oferta foi accita sem mais delongas e entao a Intel comeęou a trabalhar cm uma versao de 8 bits do chip. o 8008, 
lanęado cm 1972. A familia Intel. que comeęou com o 4(X)4 c o 8008, e mostrada nu Tabela 1.4. 

Como a empresa nao csperava muita demanda pclo 8008. montou uma linha dc produę3o dc baixo volume. 

Para o espanto de todos. houve um enorme interesse, portanto a Intel passou a projetar um novo chip de CPU que 
ulu“jpassuva o limitc de 16 qui!obyies de memória do 8008 (iniposto pelo numero de pinos no chip). Esse projeto 
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cm Tabela 14 Familia de CPUs da Intel. As velocidades de relógio sao medldas em MHz (raegahertz) em que I 

^ MHz e 1 milhżo de cidos/s. 


I Chip 

| Data. , 

MHz 

Transistores 

Memória 

Obaenraęoes 

4004 

4/1971 

0,108 

2.300 

640 

Primeiro microprocessador em um chip 

8008 

4/1972 

0,108 

3.500 

16 KB 

Primetro microprocessador de 8 bits 

8080 

4/1974 

2 

6.000 

64 KB 

Pnmeira CPU de uso geral em um chip 

8086 

6/1978 

5-10 

29.000 

1 MB 

Primetra CPU de 16 bits em um chip 

8088 

6/1979 

5-8 

29.000 

1 MB 

Usada no IBM PC 

80286 

2/1982 

8-12 

134.000 

16 MB 

Com protezo de memória 

80386 

10/1985 

16-33 

275.000 

4 GB 

Primetra CPU de 32 bits 

80486 

4/1989 

25-100 

UM 

4 GB 

Memona de cache de 8 KB embutida 

Pentium 

3/1993 

60-233 

3.1 M 

4 GB 

Dois pipelines; modelos postenores tlnham MMX 

Pentium Pro 

3/1995 

150-200 

5,5 M 

4 GB 

Dois nfveis de cache embutidos 

Pendura n 

5/1997 

233-450 

7.5 M 

4 GB 

Pentium Pro mais instruęóes MMX 

Pentium III 

2/1999 

650-1.400 

9,5 M 

4 GB 

Instruęóes SSE para grótlcos em 3D 

Pentium 4 

11/2000 

1.300-3.800 

42 M 

4 GB 

Hiperthreading; mais mstruęóes SSE 


resultou no 8080, uma CPU pequena, de uso geral, lanęada cm 1974. Dc modo muito parccido com o PDP-8, esse 
produto tomou o setor dc assalto c sc tomou insianlancamcnle urn itcm dc mcrcado de massu. Só que, cm vez dc 
vender milhares. como a DEC tinha vendido, a Intel vendeu milhóes. 

Em 1978 veio o 8086, uma gentuha CPU de 16 bils em um unico chip. O 8086 foi projctado para ser setne 
lhanic ao 8080. mas nao era totalmente compativcl com o 8080. O 8086 foi seguido pelo 8088. quc tinha a mesmu 
urquitctura do 8086 e cxccutava os mesmos programas. mas tinha um barramento de 8 bits. cm vcz de 16 bils. o quc 
o tomava mais lento e mais banito do que o 8086. Quando a IBM adotou o 8088 como a CPU do IBM PC original. 
esse chip rapidamente sc tomou o padrao da industria dos computadores pessoais. 

Nem o 8088 nem o 8086 podiam endereęar mais do que 1 megabyte de memória. No inicio da decada de 1980 
isso sc tomou um problemu cuda vez mais serio, por isso a Intel projetou o 80286, uma versiio do 8086 compat(vel 
com os chips anteriores. O conjunto dc instruęóes basico era esscncialmente o mesmu do 8086 c do 8088, mas a 
organizaęao da memória era hem diferente e um pouco desajeitada por causa do rcquisito dc compatibilidadc com 
os chips njais anligos. O 80286 foi usado no IBM PC/AT e nos modclos dc faixa media. PS/2. Assim como o 8088, 
foi um grandę succsso. cm grandę parte. porquc todos o considcnwam um 8088 mais veloz. 

O próximo passo lógico seria uma verdadcira CPU de 32 bits cm um chip, o 80386, lanęado em 1985. Asstm 
como o 80286, esse chip era mais ou menos compativel com tudo que havia antes. ale o 8080. Sendo compativcl 
com a familia anterior, era importantc para pcssoas que qucriam rodar vclhos programas, mas um aborrccimento 
para quem preferia uma arquitctura simples, limpa c moderna que nao fosse prejudicada pelos erros e pela tecno- 
logia do passado. 

Quatro anos mais tardc foi lanęado o 80486 que. cm cssćncia. era uma versiio mais vcloz do 80386, quc tam- 
bem tinha uma unidadc de ponlo flutuantc c 8 quilobytes de memória dc cache no chip. A memória de cache e 
usada para conter as pulavras de memória mais usadas. dentro ou próximas da,CPU, de modo a cvitar accsso (lento) 
a memória principal. O 80486 lumbem tinha suportc dc inultiproccssador embutido, o quc permitia que os fabrican- 
tes construisscm sistetnas com vdrias CPUs quc compartilhavam uma memória cm comum. 

Nessc porno, a Intel dcscobriu do modo mais diffcil (perdendo uma aęao judicial de violaęao de marca regis- 
truda) qtie mitneros (como 80486) niio pudem ser considerados como marca regisirada. portanto a geraęuo seguin- 
tc gunhou um nome: Pentium idu paluvra grega para cinco. ttkutc). Di terenie do 80486. quc tinha um so pipeline 
interno, o Pentium tinha dois. o quc ajudava a loma-lo dtias ve/es mais nipido (discutinctnos pipelines cm dclalhes 
no Captlulo 2). 

Mais tardc a Intel acresccntou a tinha dc pmduęan as instruęóes cspeciais MMX (MultiMcdia eXtensinn). O 
propósito dessas instruęóes era acelcrar calculos exigidos para processar audio c video. o quc tomou desnecessaria 
a adięao de co-processadores cspeciais de mullimidia. 

Quando a prosi ma geraęuo aparcccu. qucm cstava esperando por um Sexium (.vex e 'scis' cm latim) llcon desa- 
pontado. O nome Pentium agora era tao conhecido que o pessoal de marketing resolveu COnscrvd-lo, e o novo chip 
loi denominado Pentium Pro. A Jespcito da pequcna mudanęa dc nonie cm rclaęao a seu antccessor. csse proccssa- 
dor rcprcsenlou uma grandc ruptura com o passado. Em vez de ter dois ou mais pipelines. o Pentium Pro tinhu uma 
organizaęao interna muito diferente c podia cxccutar atć cinco instruęóes por vcz. 

Uma ouira inovaęao cncontrada no Pentium Pro era uma memória dc cache dc dois n(veis. O chip do proccs- 
sudor cm si tinha 8 quilobyies de memória rapida para conter instruęóes mais usadas e mais 8 quilobytcs de memó¬ 
ria rapida para comcr dados mais usados. Na mesmu cavidade dentro do pacote Pentium Pm (mas nao no chip em 
si) havia uma segunda memória de cuchę de 256 quilobyles. 
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Embora o Pentium Pro tivesse urna grandę cache, faltavam as instruęóes MMX (porque a Intel nao conseguiu 
tabricar um chip tSo grandę com dcsempenho aceiuWcl). Quando a lecnologia meihorou o bas tanie para conscguir 
coiocar us instruębes MMX c a cache no mcsmo chip. o produto combinado foi lanęado como Pentium lł»-Logo 
após foram adicionadas ainda mais instruębes de multimidia. denominadas SSE (Streaming SIMD Extensi»ns). 
para melhorar os graficos em 3-D (Roman et a]., 2000). O novo chip foi denominado Pentium 111, mas intcmamcn- 
le era, cm essćncia, um Pentium 11. 

O próximo Pentium era bascado em urna arquitcturu interna diferente. Para cclebrar esse evcnto a Intel mudou 
de algarismos romanos para algarismos arabicos c o denominou Pentium 4. Como sempre, o Pentium 4 era mais 
rapido do que todos os seus antecessores. A vers3o de 3.06 GHz tambćm introduziu urna nova e intrigante caructc- 
ristica. o hiperthreading. Essa caracteristica permitia que os programas distribuissem seu trabalho para dois threads 
dc controle que o Pentium 4 podia exccutar cm paralelo, acelerando a execuęao. Alem disso, foi acrcscentado um 
novo lotc de instruęóes SSE para acelerar ainda mais o processumenlo de audio e video. Uma fotografia do Pentium 
4 ć mostroda Figura 1.8. O seu tamanho rcal ć 16,0 mm X 13.5 mm. um chip extremamente grandę. 

Alćm da linha principul de CPUs para computadores de mesa disculida antes. a Intel fabrtcou variantcs de 
alguns dos chips Pentium para mercuduś especiais. No inicio de 1998. aempresa lanęou uma nova linha de produ- 
to denominada Celeron, basicamentc uma versao dc baixo pręgo e batxo desempenho do Pentium 2. dirigida a PCs 
de linhos mais baratas. 

Uma vez que o Celeron tem a mesma arquitetura do Pentium 2, ndo o discutiremos mais nestc livro. Em junho 
de 1998, a Intel lanęou uma versao especinl do Pentium 2 para a faixa mais alta do mercado. Esse proccssador. deno¬ 
minado Xeon. tinha uma cache maior. barramento mais rdpido e melhor suportc de microprocessador. mas, exceto 
por isso. era um Pentium 2 normal. portanto tampouco vamos discuti-lo scparndamcntc. O Pentium 111 tambćm tevc 
uma versao Xeon. 

Em novembro dc 2000, a Intel lanęou o Pentium 4. que execulava os mesmos programas que o Pentium III c 
o Xeon. mas com um projeto interno totalincnic novo. A versao de 3,06 GHz do Pentium 4 introduziu o hiperthrea¬ 
ding, assunto quc vamos discutir no Cupftulo 8. 

Em 2003, a Intel lanęou o Pentium M (dc Mobile), um chip projetado para notebooks. Esse chip era parte da 
arquitciura Ccntrino, cujos objetivos eratn menor consumo de energiu para maior tempo de vida titil das baterias: 
computadores tnenores e mais leves e capucidade de rede sem fio embutida usando o padrao IEEE 802.11 < WiFi). 
A Intel prelende lanęar. no futuro. conjuntos de chips pani oulnis aplicaęóes especificas. por excmplo, dispositivos 
para cntrctcnimcnto domćstico e notcbłKłks IEEE 802.16 (WiMax). 

Todos os chips da Intel sdo compativcis com seus antecessores atć os antigos 8086. Em outras palavras. um 
Pentium 4 pode executar antigos programas 8086 sem modilicaęao. A Intel sempre considerou essa compatibilida- 
de como um rcquisito dc projeto. para permitir que seus usuurios nao pcrcam seus invcstimcntos em software. Claro 
que o Pentium 4 e trćs ordens dc grande/.a mais complexo do que o 8086. por isso pode fazer algumas coisas quc 
o 8086 niio podia. Essas cxlcnsócs cscalonadas rcsultaram em uma arquitetura que n3o e tao elegante quanto pode 
na ter sido sc alguem twesse dado aos arquitetos do Pentium 4 42 milhóes dc transistores e instruęóes para comc- 
ęar tudo de novo. 

Ś interessante notar que. embora a lei dc Moorc ha tempos venha sendo associada com o numero de bits em 
uma memória. elu se aplica igualmente bem a chips de CPU. Plotando o numero de transistores dados nu Eigura 1.8 
contra as datas dc lanęamento de cuda chip ein uma escala semiloganlmica, vcmos quc a lei dc Moorc tambćm vale 
nesse caso. Esse gnilico e aprcsentado na Figura 1.9. 

Embora a lei de Moorc provavełmentc continuani valida por alguns anos ainda, um outro problemu esta come- 
ęando u lanęar uma sombra sobre ela: a dissipaęao de calor. Transistores menores possibililam cxecuęao em frc- 
qiiencias dc relógio mais aitas. o quc requer maior utilizaęao de tensao mais alta. O consumo dc energia e o calor 
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dissipado sao proporcionais ao quadrado da tcnsao ełćtrica, ponantu execuęao tnais rjpida significa ter mais calor 
do qual se livrar. Em 3,6 GHz o Pentium 4 consomc 115 watts de poteneia. o que significa que ele fica quase tfio 
quente quanto uma liimpada de l(X) watts. Acelerar o relógio agrava o problema. 

Em novcmbro de 2004 u Intel cancelou o Pentium 4 de 4 GHz por causa de problemas de dissipaęao de calor. 
Grandcs ventiladores podcm ajudar, mas o barulho que fazem nao agrada aos usudrios. e refrigcraęao a agua, embo- 
ra usada em grandcs mainframes, nao e uma opęSo viavel para equipamentos de mesa (menos ainda para notc- 
books). Como conscqU3ncia. a antes implacavel marcha do relógio pode ter sido temporariamente intermmpida, ao 
menos ate que os engenheiros da Intel deseubram como se livrar eom cficiencia de odo o calor gerado. Em vcz 
disso. os planos futums da Intel s3o colocar duas CPUs cm um mesmo chip, junto eom uma grandę cache compar- 
tilhada. Por causa do modo como o consumo de energia estd relacionado eom a ten sao clćtricu e a velocidadc dc 
relógio. duas CPUs em um chip consomcm muito menos energia do quc uma CPU a uma ve!ocidadc duas vczes 
maior. Como eonseqiieneia. o ganho ofcrccido pcla lei dc Moore pode ser ainda mais explorado no futuro para 
incluir caches cada vcz maiores embutidas cm um chip. em vez de velocidades de relógio cada vez mais altas, por 
que a memória nao consomc muita energia. 


1.4.2 Introduęao ao UltraSPARC III 

Na dćcada dc 1970, o Unix era popular em universidadcs, mas nenhum computador pessoal o executava. por- 
tanto os admiradores do Unix tinham de usar minicomputadorcs de tempo compartilhado (muitas vezcs sobrecar- 
regados), tais como o PDP-11 e o VAX. Em 1981. um estudante alemSo de pós-graduaęao de Stanford, Andy 
Bechtolsheim, frustrado por ter dc ir atć a central de computudorcs para usar o Unix. decidiu resolvcr esse proble¬ 
ma conslruindo para si mesmo uma cstaęao de trjbalho Unix pessoal com peęas cncontradas no comćrcio. Ele a 
denominou SUN-1 (Stanford University NetWork). 

Logo Bechtolsheim atraiu a atcnęao de Vinod Khosla, um indiano de 27 anos cujo ardente desejo era se tor- 
nar miliondrio ate chegar aos 30. Khosla eonvenceu Bechtolsheim a fundar uma empresa para construir e vender 
estaęóes de trabalho SUN. Dcpois Khosla contratou Scott McNcaly. um outro estudante de pós-graduaęao dc 
Stanford, para chefiar a produęao. Para cscrever o software eles contralaram Bill Joy, arquitcto principal do 
Berkeley Unix. Os qualro juntos fundaram a Sun Microsystems em 1982. 

O primeiro produto da empresa, a Sun-1. equipada com uma CPU Motorola 68020, foi um sucesso instanta- 
neo, assim como as maquinas Sun-2 e Sun-3 quc vicram logo dcpois c quc tamboru usavam CPUs Motorola. 
Diferentc de outms computadores pessoais da cpoca, cssas muquinas crum muito mais poderosas (dai a designaęao 
‘esiaęiio dc trabalho') e. desdc o inicio. foram projetadas para funcionar em uma redo. Cada estaęilo de trabalho Sun 
vinha cquipuda com uma conesao Ethernet e com software TCP/IP para conexao com a Arpanct. a anteeessora da 
Internet. 

Em 1987 a Sun. que agora vendia meio hilhao de dólarcs por ano dc sistemas, decidiu projclar sua própria CPU 
com basc em um projeto novo e revolucionariu da Universidadp da Califómia em Berkeley (a RISC II). Essa CPU. 
denominada SPARC (Scalable Proccssor ARChitccture — arquitetura cscalńvel de processador) formou a 
base da eslaęao dc trabalho Sun-4. Dcntro de pouco tempo todos os produtos da Sun usavam a CPU SPARC. 

Diferentc de muitas outrus empresas de computadores. a Sun decidiu nao fabricar o chip da CPU SPARC. Em 
vcz disso. licenciou varios fabricantes diferentes de semicondutorcs para produzi-lo. esperando que a eoncorrencia 
entre eles impulsionasse o desempenho para cima e os preęos para baixo. Esses fomecedores produziram vdrios 
chips diferentes com base em tecnologias diferentes. executando a veiocidades de relógio diferentes e com vdrios 
preęos. Entre esses chips estao MicroSPARC. HyperSPARC. SuperSPARC e TurboSPARC. Embora xs diferenęas 
entre essas CPUs fossem mimisculas. todas cram compatfveis binarias c exccutavam os mesmos pnrgramas de usuti- 
rio sem modificuęao. 

A Sun semprc quis que a SPARC 1'osse uma arquitetura aberta. com muitos fomecedores dc peęas e sistemas. 
de modo a dcsenvolver um setor induslrial que pudesse concorrcr no mundo do computador pessoal ja dominado 
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por CPUs com chips Intel. Para ganhar a confianęa de empresas que estavam inlcrcssadas na SPARC mas nao quc- U5 

nam investir cm um produto conlruiudo por urn concorrcnte. a Sun eriou um consórcio de industrias, a SPARC 
International, para gerenciar o dcscnvolvimento de futuras versóes da arquitclura SPARC. Portanto, ć imponantc 
distinguir entre a arquitctura SPARC, que e urna especilicaęilo do conjunto de instruęóes e outras caracteristicas 
visfvcis para o programador, c uma implementaęao panicular dessa arquiletura. Nestc livra estudarcmos a arquite- 
tura gcnerica SPARC e, quando discutirmos chips dc CPU nos capitulos 3 e 4. estudarcmos lambem um chip 
SPARC espcciHco usado cm cstaęóes dc trabalho Sun. 

A SPARC inicial era uma maquina complcta de 32 bits que funcionava cm 36 MHz. A CPU. denominada IU 
(Integer Unit), era cnxuta e sem ncessórios, e tinha apenas tres formatos de instruęao importantes em somente 55 
instruęóes no lotal. Alem disso, uma unidudc de ponto flutuante adicionava outras 14 instruęóes. Essa historia pode 
ser eompuradu com a da linha Intel, que comeęou com chips dc 8 e 16 bits (8088, 8086. 80286) e finał menie che- 
gou a chips dc 32 bits. como o 80386. 

A primeira ruptura da SPARC com o passado ocorrcu em 1995, com o descnvolvimenlo da VcrsiIo 9 da arqui 
tetura SPARC (V9). uma arąuitetura complcta de 64 bits. com endcrcęos de 64 bits c rcgistradorcs dc 64 bits. A pri¬ 
meira estaęao de trabalho Sun para implcmcntar a arquitctura V91 Versao 9) foi a UltraSPARC I. lanęada em 1995 
(Tremblay e 0’Connor. 1996). A despeito de ser uma maquina de 64 bits, tambem era tolulmcmc compauve! binii- 
ria com as SPARCs de 32 bits existentes. 

A UltraSPARC pretendia desbravar um novo terreao. Enquanto as miiquinas antecessoras (oram projetadas 
para manipular dados alfanumericos e executar programas como processadores de textos e planilhas. desde o infcio 
a UltraSPARC foi projetada para manipular imagens. vidco e multimidiu em geral. Entre outras immęóes alem da 
arquitetura de 64 cstavam 23 novas instruęóes. incluindo algumas para empacotar e dcsempacotar pixels de pala- 
vras de 64 bits, aumentar o tamanho dc imagens e giri-las. movimcntar biocos e processar comprcssao e descom- 
pressao de vfdco em tempo rcai. Essas instruęóes, denominadas VIS (Visual Instruction Set). dcstinavam-se a for- 
ncccr capacidade multimidia geral. analogu as instruęóes MMX da Intel. 

A UltraSPARC visava a aplicaęóes de primeira linha lais como grandes scrvidores Web multiprocessadores 
com dezenas dc CPUs e memórias ffsicas de ate 8 TB (1 TB (terabyte) = 10 12 bytes). Contudo. versóes menores 
tambem podem ser usadas em noteb«>oks. 

As succssoras da UltraSPARC I foram a UltraSPARC II. UltraSPARC III e UltraSPARC IV. Esses modelos 
difercm sobrctudo na velocidade de rclógio, mas em cada itcraęao tambem foram adicionadus algumas novas carac 
tcristicas. Em grandę parte desie livro, quando discutirmos a arquitetura SPARC estarcmos nos referindo primaria- 
mente a V9 UltraSPARC III Cu dc 64 bits como excmplo. A UltraSPARC IV ć. em essfincia, um processador dual 
no qual siło colocadas duas UltraSPARC 111 no mesmo chip de CPU que coinpartilham a inesma memória. Vamos 
aborda-la quando chcgarmos a multiprocessadores. no Capftulo 8. 

1.4.3 Introduęao ao 8051 

Nosso terceiro exemplo ć muito diferente de nosso primeira (o Pentium 4, usado em computadorcs pessoais) 
e do segundo (u UltraSPARC III. usada em scrvidorcs). E o 8051. usado em sistemas embutidos. A históna do 8051 
comeęa em 1976, quando o 8080 dc 8 bits jd estava no mercado havia aproximadamente dois anos. Fabricantes de 
eletrodomćsticos e aparelhos em geral cslavam comeęando a incorporar o 8080 em seus equipamcnlos mas, para 
construir um sistema completo, eles prccisavam do chip dc CPU 8080, um ou mais chips de memória e um ou mais 
chips de E/S. O custo de no mtnimo trćs chips a sua intcrconexao era substancial e restringia a utilizaęao de com¬ 
putadorcs em sistemas embutidos a itens razoavclmcnte grandes e caros. Muitos fabricantes pediam a Intel que colo- 
casse um computador inteiro (CPU, memória e E/S) em um tinico chip. para reduzir custos. 

A Intel alendeu a seus clientes praduzindo o chip 8748. um microcontmlador com 17 mil transistorcs que con- 
tinha uma CPU semelhantc a 8080, I KB dc memória somente de leitura para o programu. 64 hytes de memória dc 
leitura/escrita para as varidvcis. um temporizador de 8 bits c 27 linhas de H/S para controlar intcrruptorcs. botóes e 
luzes. Embora primitivo. o chip foi um sucesso comercial. o que levou a Intel a lanęar o 8051 em 1980. Esse novo 
chip cominha 60 mil transistorcs. uma CPU muito mais rapida. 4 KB de memona somente de leitura. 128 bytes de 
memória dc leitura/escrita. 32 linhas de E/S. uma porta serial e dois temporizadores de 16 bits. Logo foi segukio 
por outras membros quc a Intel denominou familia MCS-51. mostrada na Tabela 1.5. 


Tabela 19 Membros da familia MCS-51. 


1 Chip 

Memória de programa 

Tipo de nem. 

1 RAM ’ 1 

temporizadores 

I Interrupęóes 1 

8031 

0KB 


128 

2 

5 

8051 

4KB 

ROM 

128 

2 

5 

8751 

8KB 

EPR0M 

128 

2 

5 

8032 

0KB 


256 

3 

6 

8052 

8KB 

ROM 

256 

3 

6 

8752 

8KB 

EPR0M 

256 

3 

6 
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CO Todox esses chips usam memórias somente de leitura para o programa, mais uma pequena quantidadc dc 

mcraória de leilura/cserita dcnorninada RAM (Random Access Memory — meniória de acesso alcatório) para 
armazcnamcnto de dados. Com o 8031 e o 8032, a rnemória de programu e extcmu, o que pcrmitc que mais de 8 
KB sejam usados se necessario. Estudarcmos ROM (Read Only Memory) e EPROM (Erasahle Programmable 
ROM) no Capitulo 3. Por enquanto. basta saber que o 8051 c o 8052 sao mieroconlroladorcs de um só chip usados 
cm produtos propnamente ditos. Cada lotc e fabricado sob encomenda para o cliente (por cxempio. um fabricantc 
dc eletrodomesticos) e contem o progrmna fomeeido pelo cliente. 

Contudo, para dcsenvolvcr o software, o cliente prccisa dc um sistcma de desenvolvimcnto. E a/ que entram o 
8751 e o 8752. Eles sao muito mais caros do quc no 8051 e o 8052. mas podem ser programados pelo cliente para u 
finalidade de tesiar o software. Se for cncontrado um bug no código. o programa no 8751 ou no 8752 pode ser apa- 
gado expondo o chip ii luz ultravioleta. F.ntao um novo programa pode ser gravado. Quando estiver pronto. o softwa¬ 
re pode ser cntrcguc ao fabricantc do chip quc depois produz. sob encomenda. o 8051 ou 8052 que contem o código. 

Em termos de urquitetura. interfacc c progntmnęao, todos os membros da familia MCS-51 s3o muito semc- 
Ihantcs. Por simplicidade. nos referircmos quase semprc ao 8051, apontando as difcrenęas entre ele e os oulros chips 
quando necessario. 

Usar como cxemplo um chip de 8 bits quc rem mais dc/20 anos dc cxistencia pode parccer urna idćiu estranha 
para muita gentc. mas ha boas razues para isso. O mimem dc microcontroladores vcmlidos por ano ć dc cerca de 8 
bilhóes e cstti crescendo rapidajitcnte. Essc ntimero ć ordens dc grandcza maior do que o ntimero de Pcntiums ven- 
didos anualntente. Foi apenus em 2(X)I quc o ntimero de microcontroladores dc 8 bits vcndidos por ano ultrapassou 
o volume dos microcontroladores de 4 bits. Moje. a vcnda de microcontroladores de 8 bits ullrapassa a dc todos os 
outros junlos. e a familia de microcontroladores MCS-51 ć a mais popular de todas as famflias dc 8 bits. Dada a 
ercseenle importancia de sistemas embutidos, quem qucr que estude arquitctura de computadores tern de es tar fami- 
liari/ado cotn os chips usados nela. e o 8051 e um dos mais populares. 

Hd vdrias razóes para o sucesso do 8051. Antes de mais nada. o.preęo. Dcpendendo do ntimero dc unidades 
eneomendadas, um 8051 pode ser comprado por cerca de 10 a 15 centavos de dólar por chip, talvez menos para 
grandes volutnes. Ao contrario. um microcontrolador de 32 bits eostuma custar 30 vez.es mais, sendo quc o preęo 
de um de 16 bits estara em algum lugar desse intervalo. Para produtos vendidos por menos de 50 dólares cm mer- 
cados competitivos. rcduzir uns dois dólares do custo de fabricaęao pode faz.er uma diferenęa significativa no prcęo 
dc varcjo e nas vendas. Esta e u principal raz.ao por que o 8051 e t3o popular - ele e muito barato. 

Em segundo lugar. meia duzia de empresas fabrica os 8051 sob liecnęa da Intel. Seus produtos abrangem uma 
ampla Faixa de vclocidudes. desde aoriginal dc 12 MHz ate I(X) Mllz. c usam muitas tccnologias diferentes dc fabri¬ 
caęao e empacotamento. Essa eoncorreneia nao apenas mantem os preęos baixos, mas os grandes clientcs tambćm 
sentem-se muito mais felizes quando nao depcndcm dc um tinico foroeccdor. 

Em tercciro lugar. como o 8051 esld na praęa ha muito tempo. cxiste uma imensa quantidade de softwares 
para ele, incluindo assemblers, compiladores para linguagem C e outras linguagens, bibliotecas dc todos os tipos, 
depuradores, simuladores. software dc testes e muito mais. Tambem ha no mereado muitos sistemas complctos 
de desenvolvimcnto. o que acclera o dcscnvolvimento de hardware e software embutidos. Por lim, uma grandę 
quantidadc de programadores c engenheiros de hardware conhccem bem o 8051. u que faciiita cncontrar pessoal 
habilitado. 

Essa popularidnde se realimenta dc si mesma. Pesquisadorcs interessados em sistemas embutidos muitas vezes 
cscolhem o 8051 como scu principal objęto dc estudo dcvido a seu uso disseminado, por excmplo, para testar novas 
tccnologias mais cficientcs no cnnsumo de energia (Martin et al., 2003) ou mais tolcruntcs a falha (Lima et al., 2002). 

Existc uma grandę quantidadc de informaęóes sobrc o 8051 na Internet, alem disso. ainda hd autores escrcven- 
do novos livros sobrc ele (Ayala. 2(X)4: Calcutt et al.. 2004: MacKenzic et al.. 2005: e Maz.idi et al.. 2(X)5). ' 


I. 5 Unidades metricas 

Para evttar qualqucr confusao. vale a pena dcclarar explicitamcnte que, neste livro. assim como na ciencia da 
computaęao em gcral. sao usadas unidades metricas em vcz. das tradicionais unidades inglesas (o sistcma Jurlong- 
stone-formi}(ht\ Os principais prelixos metricos estdo relacionados na Tabela 1.6. Os prcłuos nomtalmenre sao 
abreviados por suas primeiras letras. sendo a umdade maior do que I em maiuseuias (KB. MB etc.). Uma cxccęao 
(por razócs históricas) e kbps para kilobits/s. Assim. uma linha de eomunicaędo dc I Mbps transmite I0 h bits/s e 
um relógio de 100 ps batc a eada 10 10 segundos. Uma vez. que ambos os prefixos. mili e micro. comeęam com a 
letra *m’. era prcciso fazer uma escolhu. Normalmente m' rcpresenta mili c 'fi (a lelra grega mu) representa micro. 

Tambem vale a pena lembrar que. para medir tamanhos de memórias. discos, arquivos e banco dc dados, na 
prdtica comum do setor as unidades tern significados ligeiramente diferentes. Quilo, por exemplo, significa 2 10 
(1.024) em vez. de I0 3 (1.000) porquc as memórias sao semprc uma potćncia de dois. Assim. uma memórta dc I KB 
contem 1.024 bytes. e nao 1.000 bytes. De modo semelhante. uma rnemória de I MB contem 2"’ 1 (1.048.576) bytes, 
uma rnemória dc I GB contem 2 in (1.073.741.824) bytes e um baneo dc dados de I TB contćm 2‘ 10 

I I. 099.511.627.776) bytes. Todavia. uma linha de eomunicaęao ile I kbps pode transtnitir 1.000 bits por segundo e 
urna LAN dc 10 Mbps lunciona a l().(XX).000 bits/s porquc essas velocidades nao siio potćncias dc dois. 
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Tabela 16 Os principais prefuos metricos. 


ffitpoente 

Ejrplicitn 

; Ptefiso 

Ezpaente 

Eiplicito 

1 Preflj 

io - 3 

0,001 

mili 

10 3 

1.000 

Kilo 

va* 

0,000001 

mino 

10* 

1.000.000 

Mega 

itr 9 

0.000000001 

nano 

10 9 

LCOO.OOO.OOO 

Giga 

io-“ 

0.000000000001 

pico 

10 a 

1.000.000.000.000 

Ttea 

10" 18 

O.OOOOOOOOOOOCOOl 

ńmta 

10 ,s 

1.000.000.000.000.000 

Peta 

10 -» 

0.0000000000000000001 

ato 

\0 M 

l.OCO.000.000.000.000.000 

Esa 

icr« 

0,0000000000000000000001 

zepto 

10* 

1.000.000.000.000.000.000.000 

Zeta 
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0,0000000000000000000000001 
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I0 34 
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Infelizmente, muita genie lende a misturar esses dois sistemas, em especial quando se traia de tamonhos de discos. 
Para evilar ambigiiidade. neste livro usaremos os simbolos KB, MB, GB e TB para 2 10 ,2 20 , 2 J0 e 2 40 byles, respec- 
tivamente. e os simbolos Kbps. Mbps, Gbps e Tbps para 10 J . IO 6 , IO 9 e IO 12 bits/s, respectivamemc. 

i.s Esąuema deste livro 

Este Iivro trata de omputadores multinfveis (o que inclui praticamentc lodos os eompuladores modemos) 
e de como clcs sao organizados. Examinaremos quatro m'veis com considcrdvel detalhe — a saber, o m'vel lógi- 
co digital. o nivel da microarquitctura, o m'vel ISA c o m'vel do sistema operacional da miiquina. Entrc alguns 
dos assuntos basicos e.taminados eslao o projeto global do nfvel (c por que foi projetado desse jcito), os lipos de 
instruęóes e dados disponiveis, a organizacjo e o endcreęamento da memória c o metodo de implementacjo do 
nfvel. O estudo desses tópicos e dc tópicos semeihantes <5 denominado organizaęao de computadorcs ou arquite- 
tura de computadorcs. 

Nossa prcocupaęao primordial e com conceitos, e ndo com dctalhcs ou matemdtica formal. Por essa razao, 
alguns dos exemplos dados sera o muito simplificados. dc modo a entatizar as idćias centrais, c nao os detalhes. 

Para dar urna certa ideia de como os prinupios apresentados neste livro podera ser. c sdo. aplicados na pra- 
tica, usaremos o Pentium 4, a UltraSPARC III e o 8051 como exemplos corrcntcs cm todo o livro. Os tres toram 
escolhidos por diversas razócs. Em primeiro lugar, todos sao amplamcntc usados c ć provdvel quc o leitor tenha 
acesso a no mfnimo urn deles. Em segundo lugar, cada um tem sua própria arquitetura exclusiva. o que da urna 
base dc eomparaęao e incentiva uma atitude dc questionamento a respeito das possivcis alternalivas. Livros quc 
tratam apenas de uma mdquina costumam deixar o leitor com uma scnsaęjo dc estarem revclando um projeto dc 
maquina absoluto, o que e absurdu a luz das muitas ooneessóes c dccisócs arbitrdrias quc os projetistas sdo obri- 
gados a tomar. Incentivamos o leitor a estudar esses c lodos os outros computadorcs com espfrito crftico e teniar 
entender por que as coisas sao como sao e tumbom como poderiam ser diferentes, em vez dc simplesmentc acei- 
td-las como fatos. 

E prcciso que fique claro dcsdc o infcio que este livro ndo diz respeito a programar o Pentium 4. a UltraSPARC 
III nu o 8051. Essas maquinas serdo usadas como ilustraęio quando adcquado, mas nao temos a pretensjo de scr- 
mos completos. Os leitoies que desejarem unia introduę jo minuciosa u uma dclus devcm cousullar o tnatcriaJ publi- 
cado pelos lahricantes. 

O Capftulo 2 e uma introduęjo aos componentes basicos dc um computador — proccssadorcs, meinórias c equi- 
pamentu de E/S. Pretende oterccer urna visdo geral da arquitenmt dc sistema c uma introduędo aos capftulos seguintes. 

Cada um dos captutlos — 3,4. 5 c 6 — trata de um dnico mvel cspccilico mostrado na Figura 1.2. Nosso tra- 
tamento e dc baixo para ci ma porquc as maquinas sao tradicionalmentc pnijetadas dessa mancira. O projeto do mve! 
k e determinado em grandę parte pclas propriedades do nt'vel k I. pi manto e diffcil entender qualquer nivel, a menos 
que vocć ja tenha um bom dominio do nfvcl suhjacente que o motivou. Alćm disso. em termos educacionuis. parecc 
mais sensato partir dos nivcis mais inferiores e siinples para os niveis superiores mais complesos do que o contrario. 

O Capitulo 3 e sobie o nlvel lógico digital. o vcrdadcim hardware da maquina. Discute o que sdo portas e como 
podcm ser combinadas para tbmiar circuitos uteis. Tambćtn introduzimos a algebra booleana. uma terramenta para 
anulisar circuitos digitais. Sao explicados barramentos de computador. em especial o popular barramento PCI. Neste 
capitulo sao discutidos divcrsos cxemplos do selor. incluindo os tres excmplos correntes mencionados anteriormente. 

O Capftulo 4 apresenta a arquitetura do nfvel dc microarquitetura e seu controle. Uma vez que a funęao deste 
mvel e interpretar instruęóes de nivel 2 na eamada acima dcle, nos nos concentraiemos nesse tópico e o ilustraremos 
por mcio de excmplos. O capftulo tambćm contem discussóes do nfvel de tnicroarquitetura de algumas maquinas reais. 

O Capitulo 5 discute o nive! ISA. aquele quc a raaioria dos fornecedores anuncia como a Hnguagem de maqui- 
na. Aqui. cxaminaremos detalhadamcnte nossas maquinas dc exempio. 


Capitulo 1 lntioduęao 
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CO O Cupiiulo 6 abrangc algumas das instruęóes. organizaęao de inemória e mecanismos de eontrole presentes no 

ni'vel do sistema operaeionaJ da maquina. Os cxcmplos usados aqui sao o Windows XP (popular cm sistemas de ser- 
vidores Pentium 4 de primeira linha) e o Unix. usado no UltraSPARC Ul. 

O Capitulo 7 trata do nfvel de linguagem dc montagem. Abrange a linguagem de montagem e o proccsso de 
montagem. Aqui tambem e apresentado o tópico da ligaęao. 

O Capttuio 8 discute computadores paralelos. um tópico de crescente importancia nos dias de boje. Alguns des- 
ses computadores paralelos tern multipias CPUs quc compartilham a mcsma inemória. Outros tern multiplas CPUs 
sem memória cm comum. Alguns siio supereomputadores: alguns s3o sistemas em urn chip e outros sao COWs. 

O Capitulo 9 contem urna lista comcntada de leituras su gen das. classiftcadas por assunto, e urna lista cm 
ordem alfabetica de citaęóes da literatura. E o capitulo mais importantc do livro. Aproveitc-o. 

Problemas 

1. Explique cada um dos termos seguintes cum suas próprias palavras. 

a. Tradutor. 

b. lnicrpretador. 

c. Maquina rcal. 

2 . Qual e a difcrcnęa entre interpretaędo e traduęaol 

3. E conccbivcl um compilador gerar saida para o nfvel de microarquitctura em vc/. de para o nivcl ISA? Discuta 
os pros e contras dessa proposta. 

4 . Vocć pode imaginar qualquer computador mulliniveis no quul o nivcl de dispositivo e os mvcis lógicos digi- 
tais nao estivcsscm nos nivcis mais baixos? Explique. 

5. Considere um computador mullinivcl no qual todos os nivcis siło diferentes. Cada nivel tein inslruęóes que siło 
m vezes mais poderosas do quc as do nivel abaixo dclc: isto e. uma instruęiio dc nivel r pode fazer o trabalho 
de m instruęóes dc nivel r - 1. Se um programa de nivcl I requcr k segundos para executar. quanto tempo leva- 
riam programas equivalentes nos niveis 2.3 e 4 admitindo que siio requeridas n instruęóes dc nivcl r para inter- 
prctar uma tinica instruęiio de nivel r + I ? 

6. Algumas inslruęóes no nivel do sistema opcracionai da mdquina siio idSnticas a instruęóes cm linguagem ISA. 
Elas sao oxcculadas dirclumentc polo inicroprograma. c nao pclo sistema opcracionai. A luz dc sua resposta 
ao problemu anterior. por que voce acha quc isso acontecc? 

7. Considere um computador com interprctadorcs idćnticos nos niveis 1.2 e 3. Um interpretador prccisa de n ins¬ 
lruęóes para buscar. examinar e executar uma instruęSo. Uma instruęiio de n(vcl 1 dcmora k nanossegundos 
pora executur. Quanto tempo demora para cxecutar unia instruęiio nos nivois 2, 3 c 4? 

8. Em quc sentido hardware c software sao equivalentes? E nao equivalcntes? 

9 . A maquina difercncial de Babbagc linha um programa ftxo que nao podia ser trocado. Isso e essencialmente 
a mcsma coisa que um moderno CD-ROM que nao pode ser trocado? Expliquc sua resposta. 

10. Uma das conseqiiencias da idćiu de Von Ncumann de armazenar o programa na metnóna e que esses progra¬ 
mas podcm ser modificados. exatamentc como os dados. Voce consegue imaginar um exemplo onde cssa faci- 
Udade poderia ser titil? (Dica: pense cm efetuar aritmćtica em vetorcs.) 

11. A relaęóo entre o desempenho do 360 raodelo 75 e do 360 modelo 30 era dc 50 vezcs. Ainda assim. o tempo 
de ciclo era só cinco vezcs mais t&pido. Como voce explica essa discrcpuncia? 

12. Dois projetos basicos dc sistemas siio mostrados nas figuras 1.4 e 1.5. Descreva como poderia ocorrcr entra- 
da/safda em cada sistema. Qual deles tern potencial para melhor desempenho globul do sistema? 

13. Suponha quc cada um dos 300 milhócs de habitantes dos Estados Unidos consome totalmente dois pacotcs de 
mereadoria por dia marcados com etiquetas RF1D. Quantas etiquetas RF1D tertam de ser pmduzidas por ano 
para satisfazer cssa demanda? Se a eliqucta custar um ccntavo de dolar por unidade. qual e o custo total das 
etiquetas? Dado o tamanho do P1B. essa quantia ser.i um obstaculo ii sua utilizaęiio em cada pacote olerccido 
a vcnda? 

14. Dć o nome de tres eletrodomesticos ou aparelhos candidatos a funcionar com uma CPU embutida. 

15. Em uma certa epoca. um transistor instaludo em um itiicroprocessador linha 0.1 micra dc diametro. Segundo 
a lei de Miwre, que tamanho teria um transistor no modelo do ano seguintc? 

16. A questao legał que cnvolvia quem teria inventado o computador foi rcsolvida em abril de 1973 peio jui/. Earl 
Larson, quc julgou uma aęiio judicial dc violaęao dc patente impetrada pela Sperry Rand Corporation, quc 
tinha adquirido as patentes do EN1AC. A posięao da Sperry Rand era dc que todos os fabricantes de compu¬ 
tadores Ihe deviam royalties porque as patentes principais Ihe pertencium. O caso foi a julgamento em junho 
de 1971 e mais dc 30 mil provas foram aprcsentadas. O arquivo do caso passou de 20 mil paginas. Estude esse 
caso com mais cuidado usando a grandę quantidade de informaęóes disponivcis nu Iniemet e redija um relu- 
tório que discuta scus aspectos tecnicos. O que. exatamcnte. Eckert e Mauchley patentearam e por que o juiz 
achou que o sistema deles era baseado no trabalho anterior de AtanasolT? 

17. Escolha tr£s pessoas que voce considcra serem as mais inllucntcs na criaęiio do moderno hardware de compu¬ 
tadores e redija um curto relalório que descreva suas contribuięóes e o motivo de escolhć-las. 

18. Responda ii pergunta anterior substituindo hardware por software dc computador. 
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U m computador digitaJ consiste cm um sistcma interconectado dc processadores. mcmórias e dispositiv»s dc entra- 
da/saida. Estc capitulo e unia introduęiio a esscs ires componentes c ii sua intcrconcxau. como hasc para o exame Jeta- 
lhado de nfvcis cspccificos nos cinco capftulos subseąiientcs. Processadores, memórias e dispositivos dc entrada/saida 
s3o conccitos fundamentais c estarao presentes cm todos os nfveis. portanto. iniciarcmos nosso estudo da arquilctura dc com- 
putadores cxaminando todos os trćs, um por vcz. 

2.1 Processadores 

A organizaęao dc um computador simples com barramento 6 mostrada na Figura 2.1. A CPU (Central Processing Unit 
— unidade central dc processamcnto) e o ‘cćrcbro' do computador. Sua funęao e exccuuir programas armazenados na memo- 
ria principal buscando suas instruęóes, examinando-as e entóo cxccutando-as urna após a outra. Os coinponentes sao conccta- 
dos por um barrdmento. quc ć um conjunto de fios paralelos quc transmitem cndereęos. duduś c sinais dc controlc. 
Barramcntos podcm ser extcmos ii CPU. conectando-a ii memória e aos dispositivos dc H/S. mas tuinbem podem ser internos 
ii CPU. como vcremos cm brcve. 

A CPU e composta por varias partes distintas. A unidade dc controlc e responsavcl por buscar instruęiies na memória prin¬ 
cipal e delerminar scu lipo. A unidade dc aritmetica c lógica efetua opcraęóes como adięiio c AND (E) booleano para cxccutar 
as instruęóes. 

A CPU tambera contćm unia pcquena memória de alta ve!ocidade usada para armazenar rcsultados temponirios c para 
um certo controlc de informaęóes. Essu memória e composta dc urna quantidadc dc registradores, cada um deles com um certo 
tamanho c tunęao. Normalmentc, todos os registradores tern o mesmo tamanho. Cada registrador pode contcr um numero. ate 
algutn niuximo determinado pelo tamanho do registrador. Registradores podem ser lidos e esentos cm alta vclocidadc porąue 
sao internos ii CPU. 


Maura 2.1 

A organizaęao de um 
computador simples com uma 
CPU e dois dispositivos de 

E/S._ 


Unidade central do procossamemo (CPU) 
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O rcgistrador mais importantc e o Contador de Programa (PC Program Counter), quc indica a próxima 
instruęao a ser buscada para execuęao. O nome 'contador de programa' e um tanto enganoso, porque ele nada tem 
que vcr eom contar qualquer coisa: porem o termo ć de uso universaJ. Tambem importantc e o Rcgistrador de 
Instruęao (IR lastruetion Register), que eontem a instruęao que esta sendo c.\ceutada no momento cm ąuestao. 

A maioria dos computadores tambem tern divcrsos outros rcgistradorcs. alguns de uso gerai, outros de uso 
espccffico. 


2.1.1 Organizaęao da CPU 

A organizaęao interna de parte de u ma tfpica CPU de Von Neumann c mostrada na Figura 2.2 eom mais deta- 
Ihes. Essa parte e dcnominada cuminho de dados e e composta de registradores (normalmcnte ł a 32), da ALL' 
I Unidade Laigiea e Aritmetica) e de diversos banamentos que coneetam as peęas. Os registradores alimentam dois 
registradores de cntrada da ALU, representados por Ac B na figura. Esses registradores contóm a enlrada da ALU 
cnq»anto ela esta exeeutando alguma operaęao dc eomputaęao. O eaminho ile dados e rauito importantc em todas 
as maquinas e nos o diseutiremos minuciosamente em todo este livro. 

A ALU em si cfctua adięao. subtraęao e outras operaęóes simplcs sobre suas entradas, produzindo assim um 
resultado no rcgistrador de salda. Esse rcgistrador de saida pode ser armazenado em um rcgistrador. Mais tarde ele 
poder ser eserito (isto e, armazenado) na memória, se desejado. Nem todos os projetos tem os registradores A, B c 
de saida. No exemplo, ilustramos uma adięao. 

Grandę parte das instruęoes pode ser dividida em uma de duas eatcgorias: rcgistrador-memória ou registrador- 
registrador. Instruęoes registrador-memória permitem que palavras dc memória sejam buscadas em registradores, 
onde podera ser usadas como entradas de ALU em instruęoes subseqiientes, por exemplo. ’Palavras’ sao as unida- 
des de dados movimentadas entre memóriu e registradores. Uma palavra pode ser um numero inleim. Diseutiremos 
organizaęao de memória mais udiante neste capitulo. 

Outras inslruęóes registrador-memória permitem que registradores voltem h memória para armazenagem. 

O outro tipo de instruęao e registrador-registrador. Uma instruęao registrador-registrudor tfpica busca dois ope- 
randos nos registradores, traz os dois ate os registradores de cntrada da ALU. efetua alguma operaęao coin eles, por 
exemplo. adięao ou e booleano. e armazena o resultado em um dos registradores. O processo de passar dois ope- 
randos pela ALU e armazenar o resultado e denominado cido do eaminho de dados e e o coraęao da maioria das 
CPUs. Ate certo porno considenwel, ele define o que a maquina pode fazer. Quanto mais rapido tor o cielo do cami- 
nho de dados. mais rapido sera o funcionamento da mtiquina. 


Figura 2.2 

0 eaminho de dados de 
uma tipica maąuina de 
Von Neumann. 
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2.1.2 Execucao de instruęao 

A CPU exccuta eada instruęao em uma serie de pcqucnas etapas. Em termos simplcs. as ctapas sao as seguintes: 

1. Trazer a próxima instruęao da memória ate o rcgistrador. 

2. Alterar o contador de programa para indicar a próxima instruęao. 

3. Determinar o tipo de instruęao trozida. 

4. Se a instnięao usar uma palavra na memória. determinar onde essa palavra esta. 
s. Trazer a paJuvra para dentro de um rcgistrador da CPU. se necessario. 

6. Exeeutar a instruęao. 

7. Voltar a etapa I para inieiar a execuęao da instruęao seguinte. 


L 




publlc class Interp { 
static int PC; 
static int AC; 
static int instr, 
static int instrJype; 
static int data_loc; 
static Int data; 

static boolean run bit = true: 


// contador de programa contem endereęo da próxima instr 
// o acumuiador. um registraoor para etetuar aritmetica 
// um registrador para conter a instruęao corrente 
II o tipo da Instruęao (opcode) 

// o endereęo dos dados, ou -1 se nenhum 

II contóm o operando corrente 

// um bit que pode ser desligado para parar a maguina 


public static wid interpret(int memória( ], Int starting address) ( 

// Esse procedimento interpreta programas para uma maquina simples com instruęóes que tńm 
II um operando da memoria. A móquma tern um registrador AC (acumuiador), usado para 
// aritmetica. A instruęźo ADD soma um inteiro na memória do AC, por exempio. 

// O interpretador continua funcionando ate o bit de funcionamento ser desligado pela instruędo HALT. 


II O estado de um processo que roda nessa mao 
// contador de programa, bit de funcionamento e 
// na Imagem da memória e no endereęo midal. 

PC = starting_address; 
while (run_bit) ( 
instr = memory[PC]; 

PC = PC + 1; 

instr_type = get_instr_type(instr); 
data Joc = find jjata(instr, instr .type); 
if (data Joc >= 0) 
data = memoryfdata Joc]; 
execute(instrjype, data); 

) 

ł 

private static int getjnstr type(int addr) f...) 
private static int find_data(lnt instr, int type) (...) 
private static wid execute(int type, int data) {...) 

) 


ia consiste em memória, 

:. Os parametros de entrada consistem 


// busque a próxima instruęao e armazena em instr 
// incremente contador de programa 
II determine tipo da instruęao 
// locallze dados (-1 se nenhum) 

// se data Joc ś -t, nao ha nenhum operando 
// busque os dados 
II execute instruęao 


Figura 2.3 Interpretador para um computador simples (escnto em Java|. 


Essa seqiiencia de etupas costuma ser denominada ciclo huscur-decodificar-esceutar ił fundamenta] para a 
operaęao de todos os computadones. 

Essa descrięao do modo de funcionamento de uma CPU e muito parecida com um programa escrito em ingles. 
A Figura 2.3 mostra esse programa informal reescrito como um metodo Java (isto e, um procedimento) denominado 
interp rei. A maquina que esta sendo interpretada tern dois registradores visiveis para programas usuanos: o contador 
dc programa (PC), para controlar o endereęo da próxima instruęao a ser buscada. e o acumuiador (AC) para acumu 
lar rcsultados aritmeticos. Tumbem tern registradores intemos para conter a instruęao corrente durante sua execuęao 
(instr), o tipo da instruęao corrente (instr type). o endereęo do operando da instruęao (dataJoc). c o operando conren- 
tc em si (data). Admitimos que as instruęóes contem um dnico endereęo de memória. A localizaęao de memória ende- 
rcęada contem o operando, por exemplo. o item de dudo a udicioruir ao acumuiador. 

O próprio fato dc ser possfvcl escrevcr um programa quc pode imitar a funęao de uma CPU mostra quc um pro- 
grama nao precisa ser exccu(udo por uma CPU de 'hardware', formada por uma caixa cheia de dispositivo.s elctróni- 
cos. Em vez disso, um programa pode ser executado fazendo com que um outro programa busquc. examine e exe- 
cute suas instruęóes. Um programa (como o da Figura 2,3) quc busca. examina e cxccutu as instruęóes de um outro 
programa e denominado interpretador. como mencionado no Capitulo 1. 

Essa equivalćncia entre processadores de hardware e inicrprclndores tein importanics itnplicaęóes paru a orga- 
nizaęao de computadores e para o projeto de sislcmas de computadores. Após a espeeifieaęao da linguagem de 
mtiquina. L. para um novo computadtir. a equipc de projeto pode dccidir se quer eonstruir um processador de hard¬ 
ware pura exeeutar pmgramus etn L diretumente ou se qucr cscrever um interpretador pura interpretar programas em 
L. Sc a equipc preferir cscrever uin interpretador. tambem dcvc providcnciar alguma muquina dc hardwiuc para exc- 
cutur o interpretador. Tambem siło poss(vcis certas construęóes hibridas. com um pouco de c.tccuęao em hardware, 
hem como alguma interpretaęao dc software. 

Um interpretador subdividc as instruęóes da maquina em quesliSo em pequcnas etapas. Por eonseqilenciu. a 
inóquinu na qual o interpretador roda devc ser muito muis simples c menos cara do quc seria um processador de 
hardware para a nuiquina ciiadu. Essa economia e especialmentc significativa se u maquina em qucstilo tiver um 
grandę niimero de instruęóes e ;is instruęóes forem ra/oavclmentc complicadas. com inuitas opęócs. Em essencia, 
a economia vem do fato de que o hardware esui sendo substituido por software (o interpretador) e reproduzir hard¬ 
ware custa mais do que reproduzir software. 

Os primeiros computadores tinham conjuntos de instruęóes pequenos. simples. Mas a procura por computado- 
res mais poderosos !evou. entre outras coisas. a instruęóes individuais mais poderosas. Logo dcscobriu-se que ins- 
uuęócs mais complexas inuitas vezcs lcvavam a cxccuęao mais rtipida do programa mesmo que as instruęóes indi- 
viduuis demorassem mais para ser cxccutadas. Uma instruęao dc ponto ilutuantc e um cxcmplo dc instruęao mais 
complexa. Suporte direto para acessar elementos matriciais e outra. As vezes era simples como obsernr que as mes- 
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CS mas duas instruęóes freqtientemenie ocorriam cm seqiiencia. portanto uma unica instruęao podcria fazer o trabaiho 

dc ambas. 

As instruęócs mais compiexas cram melhorcs porque a execuęao dc operuęócs individuais as vezes podia ser 
sobrcposla ou entao executada cm paralelo usando hardware diferentc. No caso dc computadores caros. de alto 
desempenho, o custo desse hardware extra podcria ser imediatamente jusiificado. Assim, computadores caros, de 
alto desempenho. passaram a ter mais instruęócs do que os dc custo mais hnixo. Contudo, o custo cresccntc do 
descnvolvimcnto de software e requisiios de compatibilidade de instruęócs crianim a nccessidade de implemcntar 
instruęóes complexas mesmo cm computadores dc baixo custo nos quais o custo era mais importantc do que a velo- 
cidadc. 

No finał da dćcada de 1950. u IBM (na ćpoca a empresa quc dominava o setor dc computadores) pcrcebeu que 
prestar suportc a uma unica familia de mdquinas, todas cxccutando as mesmas instruęóes, tinha muitas vantagens. 
tanto para a IBM quanto para scus clientcs. Entao a empresa introduziu o termo arquitetura para dcscrever esse 
nivel dc compatibilidade. Uma nova familia de computadores teria uma só arquitetura. mas muitas implementaęóes 
difcrcntcs que poderiam executar o mesmo programu e scriam diferentes apenas cm preęo e vclocidade. Mas como 
consiruir um computador de baixo custo que podcria cxecutar todas as complicadas instruęóes de nukjuinas caras. 
de alto desempenho ? 

A resposta era a interprclaęao. Essa tćcnica, que ja tinha sido sugerida por Wilkes (1951), permitia o projeto 
de computadores simplcs e dc menor custo. mas quc, mesmo assim. podium executar um grandę numero de instru¬ 
ęócs. O resultado foi a arquitetura IBM Systcm/360. uma familia de computadores compatfveis que abrangia quase 
duas ordens de grandcza. tanto em preęo quanto cm capacidade. Uma implementaęao de hardware direto — isto e, 
nAo interpretado —- era usada somentc nos modetos mais caros. 

Computadores simples com instruęócs interpretadas tambem tinham outros bcneffcios, entre os quais os mais 
importantes eram 

1. A capacidade dc corrigir cm campo instruęóes implcmcntadas incorrcuimcnte ou ulć compensar dcficien- 
cias de projeto no hardware bdsico. 

2 . A oportunidade dc acrescentur novas instruęócs a custo mfnimo. mesmo após a entrega da mdquina. 

3. Pmjcto estruturudo quc permitia descnvolvimcnto, teste e documcntaęao eficicntcs dc instruęóes comp!exas. 

A medida que o mercado dc computadores explodia em grandę estilo na dćcada dc 1970 c as capacidadcs de 
computaęao crcsciam rjpidamcntc. a dcmanda por computadores de baixo custo favorccia projetos dc computado¬ 
res que usassem interprotadores. A capacidade de ajustar o hardware e o interpretador para um determinado conjun- 
to de instruęóes surgiu como um projeto muito eficientc em custo para proccssadorcs. A medida que a tecnologia 
subjaccnte dos scmicondulorcs avanęava rapidumente. as vanlagens do custo compensavam as oportunidades de 
desempenho mais alto e as arquitcturas haseadas cm interpretador se tornaram o modo convcncional de projetar 
computadores. Quase todos os novos computadores projetados na dćcada de 1970, de mierocomputadores a main- 
frames. tinham a interprclaęao como buse. 

No finał da dćcadu dc 1970, a utilizaęao de proccssadorcs simples que cxecutavam interpretadores tinha sc pro 
pagado em grandę escala, exceto entre os modelos mais caros e dc desempenho mais alto, como o Cray-1 e a sćrie 
Cyber da Contro! Data. A utilizaęao dc um interpretador climinava as limitaęóes dc custo incrcntes as instruęóes 
complcxas, e as arquiteturas comeęaram u cxplorar instruęóes muito mais complexas, cm particular os modos de 
especificar os operandos a utilizar. 

A tcndóncia alcanęou scu ponto mais alto com o computador VAX da Digital Equipment Corporation. que 
tinha varias centcnas dc instruęócs e mais de 200 modos diferentes de especificar os operandos a serem usados cm 
cada instruęao. Infclizmentc, dcsde o infcio a arquitetura do VAX foi conccbida para ser implementada com um 
interpretador. sem dar muita atcnęao a implementaęao de um modelo de alto desempenho. Esse modo de pensar 
rcsullou nu inclusao de um mimem muito grandę dc instruęóes de vulor marginal e que eram dificcis dc executar 
diretamentc. Essa omissAo mostrou ser fu tal para o VAX e, por lim. tambem para a DEC. 

A Compaq comprou a DEC em 1998 e a Hewlett-Packard compmu a Compuq em 2001. 

Embora os primeims micmprocessadorcs dc 8 bits fossem maquinus muito simplcs com conjuntos de instru¬ 
ęócs muito simples, no finał da dćcada de 1970 ale os micropmccssadorcs tinham passado para projetos baseados 
em interpretador. Duninie esse periodo. um dos maiorcs desafios entrcnuidos pelos projetistas dc microproccssado- 
res era lidar com a crcsccnte complexidade possivel por meio de circuitos integrados. Uma importante vantagem da 
ahordagem baseada em interpretador era a capacidade de projetar um proccssudor simplcs e cunfinar quuse loda a 
complexidade nu mcmoriu que continhu o interpretador. Assim. um projeto complcxo de hurdwurc se transformou 
em um projeto compicxo dc software. 

O sucesso do Motorola 68(XX). que tinha um grandę conjunto de instruęóes interpretadas. c o concomitantc fra- 
casso do Zilog Z8000. que tinha um conjunto de instruęóes igualmentc grandę, mas sem um interpretador. dcmonstra- 
ram as vanlagcnx de um interpretador para lcvar um noro microproccssador rapidamente ao mercado. Esse sucesso foi 
ainda mais surprecndenle dada a vantagcm dc quc o Zilog desfrulava (o anteccssor do Z8(XX), o Z80, era muito mais 
popular do quc o anteccssor do (i8(X)0, o 68(X)). Ciuro quc outros tatores tambem contribuiram para isso. c um dos 
mais importantes foi a longa historia da Motorola como fabricantc dc chips e a longa historia da Exxon — proprie- 
idria da Zilog — como empresa de petróleo, e nao como fabricante de chips. 




Um outro fator a favor da tntcrpretaęao naquela epoca toi a existencia dc memórias rapidas somente de leitu- n 
ra. denominadas memórias de eontrole. para eontcr os inicrpretadorcs. Suponha quc urna instruędo imerpretada ^ 

tfpica precisassc de 10 instruęóes do interprelador. denominadas micrninstruęócs, a 100 ns cada, e duas refcrfin- 
cias a memória principai a 500 ns cada. Entao. o tempo total de execuę3o era 2.000 ns, apenas um fator de dois LL 
piór do quc o melhor quc a execuęao direta podia conscguir. Se a memória dc controlc nao estivcssc dispomvel, a 
insmięao levaria 6.000 ns. Urna pcnalidadc dc fator seis e muito mais diffcil de accitar do que urna penalidade de 
fator dois. 

2.1.3 RISC versus CISC 

Durante o finał da decada de 1970 houve experimentaęócs eom instruęóes muito complexas que eram possi- 
bilitadas pelo interprelador. Os projetistas tentavam fechar a ‘lacuna semantica’ entre o que as mdquinas podiara 
fazer c o quc as linguagcns de prograraaęao de alto m'vel demandavam. Quasc ninguem pensava em projetar maqui- 
nas mais simpies. exatamentc como agora nao ha muita pesquisa na lirea dc projeto de sistemas operacionais, redes, 
processadorcs de tcxtos etc. menos poderosos (lamentavelmente, talvez). 

Um grupo que se opos a tendencia e tentou incorporar algumas das idćias dc Seymour Cray em um mini- 
computador dc alto desempenho foi liderado por John Cocke na IBM. Esse trabalho resuitou em um minicom- 
putador denominado 801. Embora a IBM nunca tenha lanęado essa maquinu no mcrcado e os resultados tenham 
sido publicados só muitos unos depois (Radin, 1982), a notfcia vazou e outros comeęaram a invcstigar arquite- 
turas scntclhantes. 

Em 1980, um grupo om Berkeley, liderado por David Patterson e Carlo Sćquin, comeęou a projetar chips para 
CPUs VLS1 (Very Largc Scalę Intcgration — intcgraęao em escala muito grandę) que nao usavam interpretaęiło 
(Patterson. 1985; Patterson c Sequin. 1982). Eles cunharam o termo RISC para esse conceito c derarn a seu chip 
de CPU o nome RISC l CPU, seguido logo depois pelo RISC II. Um pouco mais tarde. em 1981, do outro lado da 
baia de San Francisco, em Stanford. John Hennessy projetou e fabricou um chip um pouco diferente, que cle cha- 
mou dc MIPS i Hennessy, 1984). Esses chips evoiuiram para produtos dc importancia comcrcial, a SPARC e o 
MIPS. rcspectwamcntc. 

Esses novos processadorcs tinham diferenęas significativas cm relaęao aos processadorcs existentes no coinćr- 
cio naqucla epoca. Urna vez que essas novas CPUs nSo eram compatWeis com os produtos cxistentes, seus proje¬ 
tistas tinham liberdade para escolher novos conjuntos dc instruęóes que maximizasscm o desempenho total do sis- 
tema. Embora a ćnfasc iniciul estivesse dirigida a instruędes simpies quc podiam ser executadas rapidamcntc. logo 
pcrcebeu-se que projetar instruędes que podiam ser emitidas — iniciadas — rapidamcntc era a ehave do bom 
desempenho. Na vcrdadc. o tempo que uma insmięao demorava importava menos do que quantas delas podiam ser 
iniciadas por segundo. 

Na epoca em que o projeto desses processadorcs simpies cstava no infcio, a caracteristica que chamou u aten- 
ętio de todos era o mimem reiutivumcntc pequeno de instruędes disponiveis. Jm geral, cerca de 50. Esse mimem era 
muito menor do que as 200 a 300 em computadores existcntes, como o VAX da DEC e os grandes mainframes da 
IBM. Dc fato, o acrónimo RISC quer di/er Keduced Instruction Set Computer (computador com conjunto de ins¬ 
truędes reduzido), cm comparaęilo com CISC, que significa Complex Instruction Set Computer (computador com 
conjunto dc instruędes compicxo), uma referenda nada sutil ao VAX que, na ćpoca, dominava os departamentos de 
cićncia da computaęao das universidades. Hoje em dia. poucas pessoas acham quc o tamanho do conjunto de ins¬ 
truędes seja um assunto importante, mas o nome se estabclcceu. 

Encurtando a historia, seguiu-se uma grandę guerra religiosa, com os defensores do RISC atacando a ordem 
estabelecida <VAX, Intel, grandes mainframes da IBM). Eles alirmavam que o melhor modo de projetar um com- 
putadór era ter um pequcno mimem dc instruędes simpies que cxecutasscm cm um só ciclo do caminho de dados 
da Figura 2.2, ou seja. huscar dois registradores. combimi-los de alguni modo (por cxemplo. adicionando-os ou 
fazendo AND) c arma/.enar o resultado de volta em um registrador. O argumento desses pcsquisadores era dc que. 
mesmo quc uma maquina RISC prccisasse de quatro ou cinco instruędes para fa/er o quc uma maquina CISC fazia 
com uma só instmęao. se us instruęóes RISC fossem de/ vczcs mais rapulas (porquc nao eram interpretadas), o 
RISC vencia. Tumbem vale u pena destacar quc. naquelc tempo, a vclocidadc de memórias pnneipais tinha alcan- 
ęado a vc!ocidadc dc memórias dc contmlc somente dc leitura. de modo quc a penalidade imposta pela interpreta- 
ęao tinha aumentado demais. o que favorccia muito as miiquinas RISC. 

Era dc imaginar quc. dadas as vantagens de desempenho da tecnologin RISC. as maquinas RISC (como a Sun 
UltraSPARC) pussariam como rolo compressor sobrc as maquinas CISC (tal como a Pentium da Intel) exisienics 
no mcrcado. Nada disso aconteceu. Por que? 

Antes de tnais nuda. hu a questao da computibilidadc c dos bilhóes de dólures quc as empresas tinham invcs- 
lido em software paru a tinha Intel. Em segundo lugar. o que era surpreendente. a Intel conseguiu empregar as mes- 
mas idćias mesmo cm uma arquitetura CISC. A partir da 486. as CPUs da Intel contfim um ntlcleo RISC que exe- 
cuta as instruędes mais simpies — quc normalnienie sao as mais comuns — cm um unico ciclo dc caminho dc 
dados. cnquanto interpreta as instruęoes mais complicadas no modo CISC dc sempre. O resultado lfquido e que ins- 
truęóes comuns sdo riipidas e instruęoes menos comuns siio lentas. Mesmo que essa abordagem hlbrida nHo seja lio 
rapida quanto um projeto RISC puro. ela resulta em desempenho global compctitivo c ainda permite que softwares 
antigos sejum executados sem modificaęao. 
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2.1.4 Principios de projeto para computadores modemos 

Agora quc ja se passaram mais de duas deeadas desde quc as primciras maquinas RISC foram lanęadas. eer- 
tos principios de projeto passaram a ser aeeitos como urn bom modo de projetar computadores. dado o estado atuaJ 
da tecnologin de hardware. Se ococrer urna importantc mudanęa na tecnologia (por exemplo, se. dc rcpcnte. um 
novo processo de fabricaęao fizer com que o ciclo de memória fique dez vezcs mais rdpido do que o tempo de ciclo 
da CPU), todas as apostas perdem. Assim. os projctislns de maquinas devem estar somprc dc olho nas mudunęas 
tecnológicas que possani afetar o equiI(brio entre os cumponentes. 

Isso posto. ha um conjunio dc principios de projeto. as vezes denominados principios de projeto RISC. que os 
anquitctos de CPUs de uso geral se esforęam por scguir. I.imitaęóes cxtemas, como a exigćncia dc compatibilidade 
com algurna arąuitetura existente, muitas vezes exigem urna soluęao dc conciliaęao de teinpos em tcmpos, mas esses 
principios sao mctas que a maioria dos projetistas .se esforęa para cumprir. A scguir disculircmos os principuis. 

Todas as instruędes sao executadas diretamente por hardware 

Todas as instruędes comuns sao executadas diretamente pelo hardware — nao siło intcrpretadas por microins- 
traęóes. Hliminar um nivel de interpretacjo da alta velocidade ii maioria das instruęóes. No caso de computadores 
que implcmcntam conjunlos de instruęóes CISC, as instruęóes mais complcxas podcm ser subdivididas em partes 
separadas que entao podern ser exccutadas como urna sequencia dc microinstruęóes. Essa etapa extra faz com quc 
a maquina tique mais lenta, porćm. para instruęóes quc ocorrcm com mcnos freqiieneiu, isso pode ser aceitaveł. 

Maxlmize a taxa de execuęao das instruęóes 

Computadores modemos rccorrcm a muitos truques para maximizar scu desempenho. entre os quais o princi- 
pal ć tentar iniciar o maximo possivel dc instruęóes por segundo. Afinal, se vocć puder cmitir 500 milhócs de ins- 
truęócs por segundo, lerd construido um processador de 500 MIPS, n2o importundo quanlo tempo as instruęóes reai- 
mente levcm para ser concluidos. fMIPS quer dizer Millions of Instructions per Second — milhóes dc insmięóes 
por segundo: o processador MIPS reccbeu esse nome como um trocadilho desse acrónimo). Essc prindpio sugere 
que o paralelismo pode desempenhar um importante papel na melhoriu do desempenho. urna vcz que emitir gran 
des quuntidadcs de instmęóes lentas cm curto intervaio de tempo só e possivcl se vdrias instruęóes puderem ser cxe- 
cutadas ao mesmo tempo. 

Embora as instruęóes sempre sejam encontradas na ordcm do programa. nem semprc elas sdo cxecutadas nessa 
mesma ordein (porquc algum rceurso nccessario pode estar ocupado) c nao prccisam terminar na ordem do progra¬ 
ma. E claro quc, se a instruęiio I estabelece um registrador e a instruęao 2 usa esse registrador, deve-se tomar muito 
cuidado para garantir que u instruęao 2 nao leia o registrador ató quc ele eontenha o valor eorreto. Fazer isso tun- 
cionar direito requcr muita contabilidade, mas tern potenciol para gunhos de desempenho por cxecutar vdrias ins¬ 
mięóes ao mesmo tempo. 

Instruęóes devem ser faceis de decodificar 

Um limite crilico paru a taxa dc emissao dc instruęóes <5 a dccodificaęao de instmęóes individuais para deter- 
minar quais rccursos elas necessitam. Qualquer coisa que possa aj udar nesse processo i lilii. Isso inclui fazer ins¬ 
truęóes regulares, dc comprimento fixo, com um pequeno mimem de campos. Quanto menor o mimero de forma- 
tos diferentes para as instmęóes, melhor. 

Somente LOAD e STORĘ devem referenciar a memória 

Um dos modos mais simplcs dc subdividir operaęóes em ctapas separadas e rcquerer quc os operandos para 
a maioria das instruęóes venham de registradores da CPU e a eles retomem. A operaęao dc movimentaę:io dc 
operandos da memória para registradores pode ser cxccutada em instmęóes separadas. Uinu vez quc o aeesso a 
memória pode levar um longo tempo, e que o atraso 6 imprcvisfvel. o melhor e sohrepor essas instmęóes a outras 
se elas nada lizerem exccto movimentar operandos entre registradores e memória. Essa obscrvaę:Io significn que 
somente instmęóes LOAD c STORĘ dcvem referenciar a memória. Todas as outras instmęóes devem operar 
somente em registradores. 

Providencie bastantes registradores 

Visto que o aeesso ii memória e relativamcntc lento, e preeiso providenciar muitos registradores (no minirno 
32) dc modo que. assim que urna pulavra for buscada. ela possa ser muntida cm um registrador ate nao ser mais 
nceessaria. Esgotar os registradores e ter de descarrega-los de volta a memória só para ter de recarregii-los mais 
tarde e indesejiivcl c devc ser cvitado o maximo possfvcl. A melhor mancira de eonsegutr isso e ter um numero sufi- 
cientc dc registradores. 

2.1.5 Paralelismo no nivel de instruęao 

Arquitclos dc computadores estao semprc se csforęando para meihoror o desempenho das miiquinas que pro- 
jetam. Fazer com que os chips funcionem com maior rapidcz aumentando suas velocidades de rclógio e um modo. 
mas. para cada novo projeto. hti um limite ao quc e posstvel fazer por foręa brata nuquele momento da historia. Por 
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! conseqiiencia. grandę parte dos arąuitctos de computadores busca o paralelismo (fazer duas ou mais coisas ao to 

mesmo tempo) como um meio de consegułr desempenho ainda melhor para dada veloeidade de relógio. W 

O paralelismo tem duas formas gerais, a saber, paralelismo no nivel de instruęao c paralelismo no nivel de 
processador. Na primeira, o paralelismo e explorado dentro de instruęóes individuais para obter da maquina mais 
instruęóes por segundo. Na óltima, vdrias CPUs trabalham juntas no mesmo problema. Cada abordagem tern seus 
próprios meritos. Nesta seęao vamos estudar o paralelismo no m'vel de instruęao; na seęao scguintc. estudaremos o 
paralelismo no m'vel dc processador. 

Pipelining (paralelismo) 

Hd anos sabe-se quc o processo de buscar instruęóes na memória e um grandę gargalo na vclocidade de exe- 
cuęao da instruęao. Para amenizar esse problemu, os computadores, desde o IBM Stretch (1959), tinham a capaci- 
dadc dc buscar instruęóes na memória antccipadamentc, de maneira que estivesscm presentes quando necessarias. 

Essas instruęóes eram armazenadas em um conjunto de registradores denoininado butler de busca antecipada tou 
prefetch buffer). Dessc modo. quando necessaria, urna instruędo podia ser apanhada no buffer de busca antecipada. 
em vez de esperar pela conclusao de uma leitura da memória. 

Na verdade, a busca antecipada divide a execuęao da instruęao cm duas partes: a busca e a execuęao propria- 
mente dilas. O conceito de pipeline (paralelismo, tubulaęao) amplia muito mais essa estratćgia. Em vez de divi- 
dir a execuęao da instruęao em apenas duas partes, muitus vezes ela e dividida em muitas partes (uma dtizia ou 
mais), cada uma manipulada por uma parte dedicada do hardware, c todas elas podem executar em paralelo. 

A Figura 2.4(a) iiustra um pipeline com cinco unidades. tambem denominadas estagios. O estagio I busca a 
instruęao na memória e a coloca em um buffer ate quc ela seja necessaria. O estagio 2 decodifica a instruęao, deter- 
mina seu tipo e de quais operandos ela necessita. O estdgio 3 localiza e busca os operandos. seja nos registradores, 
seja na memória. O estagio 4 e que realiza o trabalho de executar a instruęao, normalmente fazendo os operandos 
passar pelo caminho de dados da Figura 2.2. Por lim, o estagio 5 escrcve o resultado de volta no registrador adc- 
quado. 

Na Figura 2.4(b), vemos como o pipeline funciona em funęao do tempo. Durante o ciclo de relógio 1, o estdgio 
S1 esla trabulhando na instruęao 1, buscando-a na memória. Durante o ciclo 2, o estdgio S2 decodifica a instruęao 1. 
enuuanto o estdgio SI busca u instruęao 2. Durante o ciclo 3, o estdgio S3 busca os operandos para a instruęao 1, o 
estagio S2 decodifica a instruęao 2, e o estdgio S1 busca a tcrccira instruęao. Durante o ciclo 4, o estdgio S4 execu- 
Ui a instruęao 1, S3 busca os operandos para a instruęao 2, S2 decodifica a instruęao 3 e SI busca a instruęao 4. Por 
lim. durante o ciclo 5, S5 cscrcvc (grava) o resultado da instruęao 1 de volta no registrador. enquanto os oulros estd- 
gios trabalham nas instruęóes seguintes. 

Vamos considorar uma analogia para csclurecer melhor o conceito dc pipelining (paralelismo). Imagine uma 
fiibrica dc bolos na qual a operacao de produedo dos bolos e a operaędo dc embalagem para expediędo sao separa- 
das. Suponha que o departamento dc cxpedięao tenha uma longa cstcira trunsportadora ao longo da qual trabalham 
cinco funcionarios (unidades dc processamento). 

A cada 10 segundos (o ciclo de relógio), o funciondrio 1 coloca uma embalagem de bolo vazia na esteira. A 
caixa ć transportada ate o funciondrio 2, que coloca um bolo dentro deia. Um pouco mais tardc, a caixa chega na 
estaędo do funciondrio 3, onde e fechada e selada. Em seguida, ela prossegue atć o funciondrio 4, que coloca uma 
etiqueta na embalagem. Por lim. o funciondrio 5 retira a caixa da esteira e a coloca em um grandę conteincr que 
mais tarde sera despachado para um supermercado. Em termos gerais. esse ć o modo como um pipeline de compu- 
tador tambem funciona: cada instruęao (bolo) passa por diversos estagios de processamento antes de aparecer ja 
concluida na extremidade finał. 

Voltando ao nosso pipeline da Figura 2.4, suponha que o tempo de ciclo dessa maquina seja 2 ns. Sendo assim, 
uma instruęao lcva 10 ns para percorrer todo o caminho do pipeline de cinco estagios. A primeira vista, como umu 
instruęao demora 10 ns, parecc quc a ntaquina poderia funcionar em 100 MIPS. mas, na verdade. ela funciona muito 


Flaura 2.4 

(a) Pipeline de cinco estagios. 
|b| Estado de cada estagio 
como uma funęao do tempo. 
S3o itustrados nove ciclos de 
relógio._ 
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(O melhor do que isso. A cada ciclo dc rclógio (2 ns), uma nova instruęao ć conclufda, portanto a velocidade real de 

n proccssamento ć 500 VfIPS. c niło 100 MIPS. 

O pipelining permitc um compramisso ontre latenda — o tempo que dcmora para exccutar uma instruęao — 
e largura de banda de proccssador - quantos MIPS a CPU tcm. Com um tempo de ciclo dc T ns e n estagios no 
pipclinc, a latćneia ć nT nanosscgundos porquc cada instruęao passa por n estagios, cada um dos quais demora 7' ns. 

Visto que uma instruęao e conclufda a cada ciclo dc rclógio e que ha ICr/T ciclos dc relógio por segundo, o 
numero de instruęóes executadas por segundo e Uf/T. Por exemplo, se T - 2 ns, 500 milhóes de instruęóes sao 
cxecutadas a cada segundo. Para obter o numero de MIPS. temos de dividir a taxa de exeeuęao de instruęao por I 
milhao para obter t KfWyiO 0 = 1.000 VT MIPS. Km teoria, poderiamos inedir laxas de execuęao de instruęao cm 
BIPS em vez de MIPS. mas ninguem faz isso, portanto nos lambem nao farcmos. 

Arąuiteturas superescalares 

Se um pipeline e bom, entao ccrtamente dois pipelines e ainda melhor. Um projeto possfvel para uma CPU 
com dois pipelines, com basc na Figura 2.4, e mostrado nu Figura 2.5. Nessc caso, uma tinica unidade de busca de 
instruęóes busca pares de instruęóes ao mesmo tempo e coloca cada uma delas em seu próprio pipeline, completo 
com sua própria ALU para operaęao paralela. Para poder cxccutar em paralelo, as duas instruęóes nao devem ter 
conflito de utilizaęao de recursos (por exemplo, registradores) e nenhuma devc depender do resultado da outra. 
Assim como em um pipeline tinico, ou o compilador deve garantir que cssa situaęao aconteęa — isto ć. o hardwa¬ 
re nao vcrifica e dii resultados incorretos sc as instruęóes nilo forem compativeis —. ou os conllitos sao detectados 
c eliminados durante a exccuęao usando hardware extra. 

Embora pipelines, simptes ou duplos, sejam usados cm sua maioriu cm maquinas RISC (o 386 e seus antcccs- 
sores niio tinham nenhum), a partir do 486 a Intel comeęou a acrescentar pipelines de dados em suas CPUs. O 486 
tinha um pipeline e o Pentium odginał ttnha pipelines de cinco estagios mais ou menos como os da Figura 2.5, 
embora a cxata dtoisao do trabalho entre os esuigios 2 c 3 (denominados decode-1 c decode-2) era ligciramcnte difc- 
rente do quc cm nosso excmplo. O pipeline principal. denominado pipeline u, podia cxecutar uma instruęao 
Pentium arbitnina. O segundo pipeline, denominado pipeline v, podia exccutar apenas instruęóes com numems 
inteiros (e tambćm uma instruęao simplcs dc ponto flutuantc — FXCH). 

Rcgras fixas detcrminuvam sc um par dc instruęóes era compativcl e, portanto, se clas podium ser cxccutadas 
em paralelo. Se as instruęóes em um par nao fossem simples o suficiente ou fossem incompau'veis. somente a pri- 
meira era cxecutada (no pipeline u). A segunda era rctida para fazer par com a instruęao seguinte. Instruęóes eram 
semprc executadas em ordem. Assim. os compiladorcs cspccificos para Pentium quc produziam pares compatfveis 
podium produzir prograinas de cxccuęiio mais rapidos do que compiladorcs mais unligos. Medięóes mostraram que 
um código de execuęao Pentium otimizado para ele era exatamente duas vezes mais rapido para programas de intei¬ 
ros do quc um 486 quc executava a mesma vclocidade dc rclógio (Pountain. 1993). Esse ganho podia ser atribuido 
inteiramente ao segundo pipeline. 

Passur para quatro pipelines era concebivcl, mus exigiria duplicar muito hardware (cicntistas da computaęSo, 
diferente de especiulistas em foiclore, nao acredilam no numero trćs). Em vez disso, umu abordagem difcrcntc e uu- 
lizada em CPUs dc topo dc linha. A ideiu basica e ter apenas um tinico pipeline, mas Ihe dar vdrias unidades fun- 
cionuis. como moslra a Figura 2.6. Por cxcmpio, o Pentium II tern umu estrutura semclhante a dessa figura, que sera 
discutida no Capitulo 4. O termo arquitctura superescalar foi cunhado para essa abordagem em 1987 (Agerwula 
e Cockc, 1987). Emrctanio, suas raizes remontam a mais de 40 anos, ao computudor CDC 6600. O 6600 buscava 
uma instruęao a cada 100 ns e a pussava para uma das 10 unidades funcionais para execuęilo paralela cnquanto a 
CPU sala em busca da próxima instruęao. 

A dclinięao dc superescalar cvoiuiu um pouco ao longo do tempo. Agora ela ć usada para descrcvcr proces- 
sadores quc execulam miiltiplas instruęóes — freqilentementc quatro ou scis — em um tinico ciclo dc rclógio. Claro 
que uma CPU superescalar deve ter varius unidades funcionais para as quais passar todas essas instruęóes. Uma vcz 
quc. cm genil. os processadures superescalares tcm um só pipeline. tendem a ser parecidos com os da Figura 2.6. 

Usando essa dclinięao. o 6600 nao era tecnicamcnte um superescalar porquc etnitia somente uma instrucóo por 
ciclo. Todavio, o oleiło era quase o mesmo: instruęóes eram terminudas em uma taxa muito mais alta do que podi¬ 
um ser executadas. A difcrenęa entre umu CPU com um relógio de 100 ns quc cxccuta uma instruęao a cada ciclo 
para um grupo de unidades funcionais e uma CPU com um rclógio de 400 ns quc executa quatro instruęóes por ciclo 
para o mesmo grupo dc unidades funcionais e muito pequena. Em ambos os casos. a ideia fundamenta! e que a taxa 
linul e muito muis alta do quc a taxa de cxecuęao, sendo u carga de trabalho distribufda entre um conjunto de uni¬ 
dades funcionais. 


figura 2.5 

Pipelines duplos de cinco 
estagios com uma unidade 
de busca de uistrucao em 
comum. 
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Implfcito a idćia de um processador superescalar ć que o estdgio S3 pode exccutar instruęóes com rapidez con- 
sidcravclmcnte maior do que o estdgio S4 e capaz de executd-!as. Se o estdgio S3 executussc uma instruęao a cada 
10 ns e todas as unidades funcionais pudessem reaJizar seu trabaJho em 10 ns. nunca mais do que uma unidade esta- 
ria ocupada uo mesmo tempo, o que negaria todo o raciocfnio. Na verdade, grandę parte das unidades funcionais no 
estdgio 4 leva um tempo eonsideravelincnte maior do que um ciclo de nelógio para executar. eertamente aquelas que 
acessam memória ou efetuam aritmetiea dc ponto tlutuante. Como pode ser visto na figura, e possivel ter vdrias 
ALU no estdgio S4. 

2.1.6 Paralelismo no nivel do processador 

A demandn por computadores cada vez mais rdpidos parecc ser insaciavel. Astrónomos qucrcm simular o que 
aconteceu no pnmeiro micrassegundo após o big bant;, economistns qucrem modelar a economia mundial o udo- 
lesccntes qucrem se divertir com jogos multimidia em 3D coin seu amigos virruais peia Internet. Em bora-as CPUs 
estejam cada vez mais rapidas. havcra um momento em que elas terao problcmas com a velocidadc da luz. o que 
provavc!mente acontccerd a 20 cm/nanossegundo em fio de cobre ou libra ótica. nao importando o grau de inteli¬ 
gencja dos engenheiros da Intel. Chips mais veloz.es tambćm produ/em mais calor, cuja dissipaęao ć um problemu. 

Paralelismo no nivcl de instruędo njuda um pouco, mas pipclining e operaęao superescalar raramente rendem 
mais do que um fator de cineo ou dez. Para obter ganhos de 50, 100 ou mais, a tinica mancira i projetar computa- 
dores com varias CPUs; portanto, agora vamas vcr como alguns dcics sito orgamzados. 

Computadores matriclais 

Um niimero substancja! de prdblemas em ciencias ffsicas c engenharia envolve matriz.es ou entao tern estrutu- 
ra de alta regularidadc. Muitas vezes, os mesmos calculos sao efctuados cm muitos conjuntos diferentes de dados 
ao mesmo tempo. A regularidadc e a estrutura desses programas os tomam alvos especialmente fdceis para accle 
raęao por mcio de exccuęilo paralela. Ha dois metodos quc tćm sido usados pani cxecutar grandes programas cien- 
tfficos rapidamentc. Embora esses dois csqucmas guardcm notavcis semolhanęus na niuioriu de seus aspcctos, iro- 
nicamente um dcles e considerudo uma extensi!o de um processador unico. enquanu> o outro e considcrado um 
computador paralelo. 

Um pna-essador matricial consiste em um grandę niimero dc proceśsadores identicos que efetuam a mesma 
soqiićncia de insirugoes em diferentes conjuntos dc dudos. O primeiro processador matricial do mundo fni o ILL1AC 
IV da Universidade Je Illinois, ilustrado na Figura 2.7 ( Bouknight et al., 1972). O piano odginał era construir uma 
maquina que consistisse em quutro quadrantes. cada um deles com uma gradc quadradu 8 X 8 dc elemenios de pro- 
ccssador/memória. Uma tinica unidade de controle por quadrante transmitia instruęóes, que oram eletuadas no 
mesmo passo por todos os proccssadores. cada um usando seus própnos dados de sua própriu memória learregada 
durantc a fasę de inicializaęao). Eisse projeto. claramentc muito diferente de uma maquina-padrJo dc Von Neuraann. 
costuma ser denominado processador SIMD ifluso unico de instruęóes, f1uxn miiltiplo de dados). Dcvido a um 
excesso de eusto, cquivalenlc a quatn> vezcs o estimailo. somentc um quadrante foi consuuido. porem alcanęou um 
desempenho de 50 megallops (milhóes de opcraęóes de ponto tlutuante por segundo). Diz-se que, caso a constru- 
ęao da m<iquina tivessc sido concluida e cla tivcsse alingido sua meta dc desempenho originul (1 gigafiop), cia tena 
duplicado a capucidade dc computaęao do mundo inteiro. 
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Para urn programador, um processador wtorial sc parecc muito com um processador matricial. Assim como 
urn processador matricial, cle e muito oficiente para exccutar urna seqiićneia dc operaęóes em pares de elementos 
de dados. Porem, diferente de um processador matricial, todas as operaęóes de adięao sao efetuadas em um unico 
somador, de nlto grau de paralelismo. A Cray Research, empresa fundada por Seymour Cray, produziu muitos pro- 
cessadorcs vctoriais, comeęando com o Cray-1 em 1974 e continuando ate os modelos atuais (a Cray Research 
agora e parte da SGI). 

Processadores matriciais, bem como processadorcs vetoriais, trabalham com matrizcs de dados. Ambos cxc- 
cutam instruęóes limcas que, por exemplo, somam os elementos aos pares para dois velores. Porem, enquanto o pro¬ 
cessador matricial faz isso com tantos soinadores quantos forem os elementos do vetor. o processador vetorial tern 
o conceito de um registrador vetorial, que consistc em um conjunto de registradores convencionais que podem ser 
carregados com base na memória em uma unica instruęao quc, na verdadc, os carrega serialmente com base na 
nemória. Entao, uma instruęao de adięao vetorial efema as adięóes par a par dos elementos de dois desses vetores. 
alimentando-os era um somador com paralelismo (pipelined) com base em dois registradores vetoriais. O resultado 
do somador e um outro vetor, quc pode ser armazenado em um registrador vetorial ou usado diretamente como um 
operando paru uma outra opcraęao vetorial. 

Embora atualmente nao haja nenhum processador matricial em produęao, a idćia estd longe de perecer. As ins- 
truęóes MMX e SSE disponiveis no Pentium 4 usam esse modclo de execuęao para acclerar software dc multimi- 
dia. Ncsse aspecto particular. o ILL1ACIV e um dos ancestrais do Pentium 4. 


Multiprocessadores 

Os elementos de processamento em um processador matricial nao sao CPUs independenles, uma vez que ha 
uma só unidade de controle compartilhada por todos eles. Nosso primeiro sistema paralelo com CPUs rotalmentc 
desenvolvidas e o multiprocessador. um sistema com mais de uma CPU que cnmpartilha uma memória em 
comum, como um grupo de pessoas que, dentro de uma sala de aula, compartilha um quadro-negro em comum. 
Uma vez que cada CPU pode ler ou escrcver qualquer parte da memória. elas devem se coordenar (em software) 
para evitar que uma atrapalhe a outra. Quando duas ou mais CPUs tem a capacidade de interagir de perto, como e 
o caso dos multiprocessadores, diz-se que elas sao fortemente acopladas. 

Hd vdrios esquemas de implementaęao possfveis. O mais simples e um barramento unico com vdrias CPUs e 
uma memória, todas ligadas nele. Um diagrama desse lipo de multiprocessador de barramento unico e mostrado na 
Figura 2.8(a). , 

Nao e preciso muita imaginaęao para perceber que, com um grandę numero de processadores vciozes tentan- 
do accssar a memória pelo rnesmo barramento, surgirao conililos. Projetistas de multiprocessadores apresentaram 
vdrios esquemas para reduzir essa contcnęao e melhorar o desempenho. Um desses esquemas. mostrado na Figura 
2.8(b>. dd a cada processador um potico de memória loeal só dele. quc nao e accsstvcl para os outros. Essa memó¬ 
ria pode ser usada para código de programa e para os itens de dados que nao precisam ser compartilliados. O aees- 
so a essa memória privada nao usa o barramento principal, o que reduz muito o trdfego no barramento. Outros 
esquenuts (por cxcmplo, caching) tambem sao posstveis. 


Figura 2.8 

|a| Multiprocessador de 
barramento unico. |b| 
Multicomputador com 
memónas locats. 
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Multiproccssadorcs tera a vantagcm sobre outros tipos de computadores paralelos: e facil trabalhar com o C3 

modelu dc prognunaęSo dc urna linka mcmória compartilhada. CO 

Por exemplo, imagine ura programa que procuru cćlulas canccrosas na foto de ulgum tecido lirada por urn 
microscópio, A fotografia digitalizada podcria ser mantida na memóna cm eomum. sendo eada processador dcsig- 
nado para caęar essas celu las cm alguma rcgiao. Uma vcz que cada processador tera accsso a toda a mcmória. estu- 
dar a celula que comeęa cm sua rcgiao designada mas atravessa a frontcira da próxima rcgiao ndo ć problemu. 

Multicomputadores 

Emboraseja rclativamente facil construir multiproccssadorcs córa um numero inodesto de processadorcs (< 256), 
constniir grandes ć surprccndcntcmemc diticil. A dificuldade esul cm conectar todos os processadorcs a memória. Para 
evitar csses problemas. muitos projctistas simplcsmentc abandonaram a idćia dc ter uma memória contpurulhada e pas- 
saram a construir sislcmas quc consistissem cm grandes numeros de computadores interconectados, cada um com sua 
propria memória privada, mas nenhuma mcmória cm comum. Esscs sistemas siło denominados multicomputadores. 
Costuma-sc dizer quc as CPUs de um multicumputador siło fracamenie acopladas para eon trustu-las com as CPUs 
fortemente acopladas dc um multiproccssador. 

As CPUs dc um multicomputador sc comunicam cnviundo mensagens u mas as outras, mais ou menos como 
enviar e-mails, porem com muito mais rapidcz. Em sistemas grandes nao e pnitico ter cada computador ligado a 
cada um dos outros, portanto sao usadas topologias como maihas 2D c 3D, arvores e aneis. O resultado ć que men¬ 
sagens de um compuutdor para outro muitas vczes passam por um ou mais computadores ou comutadorcs (chaves) 
intermediiirios para ir da fonie ate o destino. Nao obstanie, podem-se conscguir tempos de transmissiio dc mensa- 
gem da ordcm de alguns microssegundos sem muita dificuldade. Multicomputadores com aproximadamente 10 mil 
CPUs ja foram constru/dos e colocados cm operaęiło. 

Uma vcz que multiproccssadorcs sao mais faceis dc programar e multicomputadores sao mais fdccis dc cons¬ 
truir. ha muita pesquisa sobre projetos dc sistemas hibridos que combinam as boas propriedades dc cada um. Esscs 
computadores tentam apresentar a ilusao de memória compartilhada sem bancar a despesa dc rcalmcnte construf¬ 
la. Falaremos mais dc multiproccssadorcs e multicomputadores no Capftulo 8. 


2.2 Memória primaria 

A memória e a parte do computador onde sao amutzenados programas e dados. Alguns cicntistas da compu- 
taęiło (em especial os britiinicos) usam o termo armazem ou armazenagem em vcz de memóna, se bem que o 
termo armazenagem estił sendo usado cada vez mais para armazenagem em disco. Sem uma mcmória da qual os 
processadorcs possam ler e na qual possani gravar, ou escrcver, infomnnęóes, nao havcria computadores digitais com 
programas armuzenados. 

2.2.1 BitS 

A unidude busica dc memória ć odfgito binario. denorainado bit. Um bit pode contcr um 0 ou um I. E a uni- 
dade mais simples possfvel. Um dispositivo capaz de armazenar somente zeros dificilmente poderia fonnar a base 
de um sistema de memória; siło necesstirios pelo menos dois valorcs. 

As pcssoas costumam dizer que computadores usam aritmćtica binana porquc ela ć •eficicnte'. O que eias que- 
rcm dizer. embora raramente perccbam. ć que informaęócs digitais podem ser artnazenadas distinguindo entre valo- 
res difercntes de alguma quantidade ffsica continua, lal como tensiło ou correntc cletrica. Quanto maior for o nume¬ 
ro dc valorcs que prccisam ser distinguidos. menores seriło as separaęócs entre valores aujacentes e menos confidvel 
sera a memória. 

O sistema numerico bimirio rcquer a distinędo entre apenas dois valores. Por conscqiićncia. e o metodo mais 
confuivcl para cndificar informaęócs digitais. Se vocc nao csuver familianzado com numeros binanos. consuilc o 
Apendice \. 

Ha emprcsas que anunciam que sens computadores łćm aritmćtica decimal. bem como binaria, como e o caso 
da IBM e seus grandes muinfrumes. Essa faęanha ć rcalizada usando-sc 4 bits para armazenar um dfgito decimal 
que uuliza um código denomtnado BCD i Binary Coded Decimal — ctidigo decimal codificado em binario). 
Quatn> bits dao 16 combinaęóes, usadas para os 10 dtgitos dc 0 a 9 — scis combinaęócs nao sao usadas. O nume¬ 
ro 1944 e most rado a seguir codificado em formato decimal e em formato binario puro, usando 16 bits cm cada 
exemplo: 

decimal: 0001 1001 0100 0100 binńrio:0000011110011000 

Dczesseis bits no formato decimal podem armazenar os numeros de 0 u 9999. dando somente 10.000 eombi- 
nactłes. ao passo que um numero binario puro dc 16 bits pode armazenar 65.536 combinaęócs difercntes. Por essa 
raziło, as pcssoas dizem quc o bimirio e mais eficicnte. 

No entanto, considcre o que aconteceria se algum jovem e brilhantc engenheiro clćtrico inventassc um dispo- 
sitivo cletrónico de alla confiubilidade que pudesse armazenar diretamentc os dfgitos de 0 a 9 dividindo a regiao de 
0 a 10 volts em 10 intervalos. Quatro desses illspositivos poderiam armazenar qualquer numero decimal de 0 a 9099. 
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Quatro desses disposilivos duriam 10.000 combinaęóes. Elcs tambćm poderiam ser usados para armazenar nume- 
ros binanos usando somente 0 e I, caso om que quatro dclos podenum armazenar somcnie ! h combinaęóes. Com 
tais dispositivos. o sistema dccimal e obviamcnte mais elkicnte. 


2.2.2 Endereęos de memória 

Memórias consistem cm urna quantidadc do celulas (ou endereęos), cada uma das quais podondo armazenar 
urna informaęao. Cada celula lem urn mimom, deuominado seu endereęo. pelo qual os programas podcm se refe- 
rir a ela. So a memória tiver n celulas. el&s terao endereęos de 0 a n - I. Todas as celulas om uma memória contom 
o mesmo mimem de bits. Se uma cćlula consistir em k bite. ela pode contcr quaisquer das 2* diferentes combina¬ 
ęóes dc Bite. A Figura 2.9 mosira trćs organizaęóes diferentes para uma memória dc 96 bite. Notę quc as cćlulas 
udjaccntes tom ondereęos consccutivos (por dctinięao). 

Computadores quc usam o sistema dc niimeros bindrios (incluindo notaęao octal ou hcxadecimal para mimc- 
ros bindrios) expressam endereęos de memória como niimeros bindrios. Se urn endercęo tiver m bits, o numero 
mdximo de celulas endcreędveis ć 2 m . Por cxcmplo. um endereęo usado para referenciar a memória da Figura 2.9(a) 
precisa de no mfnimo 4 bits para cxprcssar todos os niimeros de 0 a 11. Contudo. um endercęo dc 3 bits ć suficicn- 
te para as ftguras 2.9(b) e (c). O mimem dc bits no endercęo determina o numero maximo dc celulas dirctamenic 
endcrcęuveis na memória o e independente do numero dc bits por cćlula. Uma memória com 2 12 cćlulas de 8 bits 
cada e uma memória com 2 12 celulas de 64 bite cada precisam de endereęos de 12 bite. 

A Tabela 2.1 mostra o numero dc bits por celula para alguns computadores que ja (bram vcndidos comercialmente. 

A significancia da cćlula ć que ela e a menor unidadc endercęavcl. Hd poucos anos, praticamcnte todos os 
fabricantes de computadores padronizaram celulas de 8 bits. quc e denominada um byte. Bytes sao agrupados cm 
palavras. Um computador com uma palavra de 32 bite tern 4 bytes/palavra, cnquanto um computador com uma 
palavra dc 64 bits tem 8 bytcs/paiavra. A signilicancia de uma palavra ć que grandę parte das instruęóes efetua opc- 
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Tabela 2.1 Numero de bits por celula para alguns computadores comerciais histońcamente mteressantes. 
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raęócs com palavras intciras, por cxemplo, adicionando duas palavras. Assim. urna maąuina dc 32 bite tera rcgis- _ 

tradores dc 32 bits c instruęócs para manipular pa!avras de 32 bite, cnquanto unia mdąuina de 64 bies era registru- *** 

dores de 64 bite c instruęóes para movimentar. somar. subtrair e, em gerai. manipular palavras de 64 bits. 

2.2.3 Ordenaęao de bytes 

Os bytes cm uma palavra podem ser numerados da esquerda para a direita ou du dircita para a csqucrda. A 
principio essa opęao pode parecer sem importancia mas, como vercmos em brevc. ela tern eonsidcravcis implica- 
ęóes. A Figura 2.10(a) retrata parte da memória de um eomputador de 32 bite cujos bytes sao numerados da esquer- 
da para a dircita, tal como o SPARC ou os grandes mainlrames da IBM. A Figura 2.10<b> da uma rcpreseniaęao 
analogu de um eomputador de 32 bite quc usa uma numcraęao da dircita para a csąuerda, como a familia Intel. O 
primciro sistema, no qual a numcraęao comeęa na ordem 'grandę', isto e, nu ordetn altu. <5 denominudo computa- 
dor big endian. uo conmirio do little endian da Figura 2.1(Kb). Esses termos sc devcm u Jonathan Swift, cujo livro 
As viagens de Gulliver satiri/.ava os politicos que discutiam por que uns eram a favor de qucbrar ovos na extrcmi- 
dadc grandę {big end) e outros achavam quc deviam ser qucbrados na extremidade pequcna (little end). O termo foi 
empregado pcla primeira vcz na arquitetura de coinputadores cm um dclicioso artigo por Cohen (1981). 

F. importantc entender quc tanio no sistema big endian como no sistema little endian um intciro de 32 bite com 
o valor numćrico de. digamos. 6 ć representado pelos bits 110 nos trfis bits mais a direita (baixa ordem) de uma 
palavra e os zems nos 29 bits da csquerda. No esquema big endian , os bits 110 estiio no byte 3 (ou 7, ou II etc.), 
enquanto no esqucma little endian eles estao no byte 0 (ou 4, ou 8 etc.). Em ambos os casos. a palavra que contem 
esses intciros tern endereęo 0. 

Se os computadores somente armazenassem intciros, niio havcria nenhum problemu. Contudo. muitas aplica- 
ęóes requercm um mistura de intciros, cadcias de caractcres c outros lipos dc dados. Considere, por cxcmplo, um 
simpics registro de pessoul composto dc uma cadeia (nome do empregado) e dois inteiros (idade e ntimero do depar- 
tamento). A cadeia e enccrrada com 1 ou mais bytes de valor 0 para completar uma pulavra. Para o registro “Jim 
Smith, idade 21. departamento 260 (1 X 256 + 4 = 260)". a reprcsentaęao big endian e mostrada na Figura 11 l(a) 
c a reprcsentaęiio little endian 6 mostrada na Figura 2.1 l(b). 

Ambas as represcntaęóes sQo boas e intemamente consistcntes. Os pioblemas comeęam quando uma das 
maąuinus tentu enviar um registro a outra por uma rcdc. Vamos admitir quc a big endian envie o registro a little 
endian um byte por vc/„ comcęando com byte 0 e terminando com byte 19. (Vamos ser otimistas e admitir que os 
bite dos bytes nao sejmu invertidos pcla transmissao porque, assim com esia, ja temos problemas suftcientes.) 

Portanto. o byte 0 da big endian entra na memória da little endian no byte 0 e assim por diantc. como mostra a 
Figura 2.11 (c). 

Quando a little endian tenta imprimir o nome. ela funciona bem, mas a idade sai como 21 X 2 i4 e o denarta- 
mento tambem fi ca estragado. Essa situaęao surge porquc a transmissao mvcrtcu a ordem dos caractcres em uma 
palavra, como dcveria. mas tambćm invcrteu os bytes de um intcim, o que nao devcna. 

Uma soluędo óbvia d fazer com que o software inverta os bytes de uma palavra após tć-la copiado. Isso leva i 
Figura 2.1 l(d), que faz com que os dois intciros saiam bem, mas transfonna a cadeia em ‘MIJTIMS' e dcixa o 'H’ 
perdido no meio do nada. Essa inversao da cadeia ocorre porque. ao ler a cadeia. o eomputador le primciro o byte 
0 (um espaęo), cm seguida o byte 1 (M) e assim por dianie. 
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(a) Memória big endian. 
(b| Memóna little endian. 
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Nao ha ncnhumu soluęilo simples. Um modo que funciona, mas e incticientc, ć incluir urn eabeęalho na frcn- 
tc dc cada itetn dc dado quc informa quc tipo de dado vem a seguir (cadcia. intctro ou outro) e quaJ e scu eompri- 
mcnto. Isso permile que o dcstinaldrio cfctuc apcnas as convcrsóes necessarias. Dc qualqucr modo, e preciso quc 
fiquc claro quc a falta dc um padrao para a ordenaęao de hytes ć um grandę ahorrccimento quando hii troca de dados 
cntre tnaquinas diferentes. 

2.2.4 Códigos de correęao de erro 

Memórias dc coinpuiador podem comctcr erros dc vez cm ąuando dcvido u picos de tensao na linha elćtrica 
ou outras cousas. Para sc rcsguardar contra esses crros. algumas memórias usam códigos de detecędo dc erros ou 
códigos dc correęao de crros. Quando esses códigos siio usados, bits cxtras sao adicionados a cada palavra dc 
memória de modo cspecial. Quando urna palavra e lida na memória. os bits extras siio veriiicados para ver se oeor- 
reu um erro. 

Para cniendcr como os crros podem ser manipuladns. e prcciso vcr dc perto o quc e. na realidadc, um erro. 
Suponha quc urna palavra de memória oonsista cm m bits dc dados. aos quais serao adicionados r bits redundantes. 
ou dc vcrifioaęao. Seja o comprimento total n (isto ć. n — m f r). Urna unidadc de n bits quc contem m dados c r 
bits dc ycrificaęan costuma ser denominada urna palavra de erkligo dc n bits. 

Dadas duas palavras dc código quaisqucr. por cxcmplo, 10001001 c 10110001, ć possfvel determinar quantos 
bits correspondentes siio difcrcntes. Ncsse caso, 3 bits s5o difcrcntes. Para determinar quantos bits siio diferentes. 
hasta calcular o EXCLUSIVE OR (OU EXCLUSlVO) boolcano bit por bit das duas palavras dc código c contar o 
numero dc bits 1 no rcsultado. O numero dc posięóes dc bil nas quais as duas palavras dc código sao diferentes ć 
denominado distancia de Hamming (Hamming, 1950). Sua principal signilicanciu e que. sc duas palavras dc códi¬ 
go estivercm separadas por uma distiincia de Hamming d. serd prcciso d erros de bits unicos para converter urna na 
outra. Por cxcmplo. as palavras dc código 11110001 c 00110000 estao a uma distiincia dc Hamming 3 uma da outra 
porquc e prcciso 3 crros de bits unicos para convertcr uma na outra. 

Com uma palavra de memória dc m bits, todos os 2 m padróes dc bits sao legais. mas, devido ao modo como 
os bits de verilicaęao sao computados, somentc 2'" das 2" palavras de código sao validas. Sc uma leitura de memó¬ 
ria aparcccr com uma palavra de código invalida. o computador sabc quc ocorreu um erro de memória. Dado o 
algoritmo para calcular os bits de ycrificaęao, ć possfvel monlar uma lista complcta das palavras dc código legais 
c, por mcio dessu lista, achar as duas palavras dc código cuja distancia de hamming seja minima. Essa distancia e 
a distiincia dc Hamming do código complcto. 

As propriedades dc dctecęao de erro c correęao dc emi dc um código dcpendcm dc sua distancia de Hamming. 
Para detectar d erros de bits unicos, vocfi precisa de um código de distiincia d 4- 1 porque. com tal código. nao cxistc 
nenhum modo quc pcrmiia que d crros dc bits unicos mudcm uma palavra de código valida para uma outra palavrj dc 
código yalida. De modo scmelhantc. para corrigir d crros dc bits unicos vocS prccisa dc um código dc distiincia 
2 d + I porque, desse modo, as pakwras de código legais estao tao distantes uma da outra que, mesmo que d mudc, 
a puluvra de código odginał ainda usiani mais perto do quc qualquer outra palavra de código. portanto cla pode ser 
unicamcntc determinada. 

Como um excmplo simples de unt código de detecęiio dc erro. considcre um código em que um linko bit de 
paridade e anexado aos dados. O bit de paridade i cscolhido dc modo que o numero dc bits 1 na palavra de códi¬ 
go seja par (ou impar). Tal código tern uma distancia 2. uma vez que qualquer erro de bit linico produz uma pala- 
vra dc código com a paridade errada. Em outras palavras. cle prccisa dc dois crros de bits unicos para ir de uma 
palavra de código viilida ate uma outra palavra dc código viUida. Pixle ser usado paru detectar crros ilnicos. Sempre 
que uma pulavra que contcnha a paridade errada for lida da memória, uma condięiio de erro 6 sinalizada. O progra¬ 
mu nao pode continuar, mus. ao menos. nenhum rcsultado errado e calculado. 

Como um cxcmplo simples de um código dc correęao dc crros, considcre um código quc tenha apcnas quatro 
palavras de código validas: 

0000000000. 0000011111, 1111100000 6 1111111111 

tcs.sc codigo tein uma distancia 5, o quc signiłica que pode corrigir erros dupios. Sc u palavra dc código 
<XM)0<MK) 111 chegar, o destinatdrio sahe quc a original dcve ter sido (KM)OOl 1111 (sc nao houvcr mais do que um 
duplo erro). Contudo, sc um erro triplo mudar (XXXXXXXXX) para (MX)(XX)()I 11. o erro nao pode ser corrigido. 

Imaginc que qucremos projćtar um código com m bits de dados c r bits dc verificaęao quc permitira quc todos 
os erros de bits unicos sejum eorrigidos. Cada uma das 2'” palavras dc memória legais tern n palavras dc código ile 
guis a uma distancia I. Essas paluvras de código ilcguis siio fonnadas sistcmuticumcntc inycnendo cada um dos n 
bits na palavra dc código de n bits formuda com busc nela. Assim. cada uma das 2'” palavras dc memória legais 
rcqucr/t ( I padróes dc bits dcdicados a cla (para os n possivcis crros c padrao dc correęao). Uma vc7. quc o nume¬ 
ro total dc pudrócs dc bits ć 2", temos de ter (ii + 1 )2“ "S 2". Usando n m + r esse requisito sc tomu (m ł- r + 
I) S 2*’. Dudo m, isso impóe um liinitc interior ao mimem dc bits dc vcrificaęao ncccssdrios para corrigir erms uni¬ 
cos. A Tabela 2.2 mostni o mimem dc bits de veriftcaęao rcqucridos por varios tamunhos dc palavras dc memória. 

Esse limitc interior tcórico pode ser conscguido usando um metodo criudo por Richard Hamming (1950). 
Antes de anulisar o algoritmo dc Hamming, vamos cxaminar uma rcprcscntaęao griitica simples que ilustra com cla- 
reza a ideia dc um código dc correęao dc crros para palavras dc quatm bits. O diagramu de Vcnn da Figura 2.12(u) 
contem trescireulos. A. He C. qucjuntos formam seteregiócs. Comoexcmplo. vamoscoditicorapalavradememó- 
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Tabela 22. Numero de bits de verificaęao para um código que pode corriglr um eno unico. 



AA A 

Figura 2.12 

(a) Codificaęao de 1100. 

(b) Paridade par adicionada. 

|c) Erro em AC. _ 


(a) (b) (c) 

ria dc 4 bits 11 (X) nas rcgióes AB. ABC, AC c BC. I bit por regisSo (cm ordem alfabetica). Essa codificaęao e mos- 
trada na Figura 2.12(a). 

Em scguida acrcsccntamos um bit de paridade a cada urna dessas truś regiócs vazias para produzir paridade 
par. como ilustrado na Figura 2.12(b). Por defmięio, agora u soma dos bits em cada um dos trfis circulos, A . BcC, 
ć um numero par. No efreulo A, temos os ąuatro numeros 0, 0, 1 c 1, cuja soma totaJ ć 2, um numero par. No cir- 
culo B , os numeros sao 1, 1.0 c 0, cuja soma total ć 2. um numero par. Por lim, no cfrcuio C, temos a mesma coisa. 
Nesse excmplo, por acaso todos os circulos sdo iguais. mas soinas dc 0 e 4 tambem sao possiveis em outros cxcm- 
plos. Essa figura corrcsponde a urna palavra de código com 4 bits dc dados e 3 bits dc paridade. 

Agora suponha que algo de ruim acontcęa com o bit na regiao AC c cle mude de um 0 para um I. como mos- 
tra a Figura 2.12(0. Agora, o compuiador pode ver quc os circulos A e C tem a paridade errada Jmpar). A limca 
mudanęa de bit individual que pode comgi-los e restaurar AC para 0, o que corrige o erro. Dcssc modo. o compu- 
tador pode corrigir automalicamcntc erros de memória dc um só bit. 

Agora, vamos vcr como o algoritmo de Hamming pode ser usado para construir códigos dc correęao de erros 
para qualquer tamanho de palavru de memória. Em um código de Hamming sao acrescentados r bits de paridade a 
urna paluvra de m bits, fonnando urna nova palavra de comprimento m + r bits. Os bits sio numerados comeęan- 
do com 1, nio com 0, sendo que o bit 1 & o bit da extrcina esquerda (ordem alla). Todos os bits cujo numero de bit 
for ima potencia de 2 sio bits dc paridade; os restuntes sio usados para dados. Por exemplo, com urna palavra de 
16 bits. sio adicionados 3 bits dc paridade. Os bits 1, 2,4, 8 e 16 sio bits de paridade e todos os bits restantes sio 
bits de dados. No total, a palavra dc memória tem 21 bits (16 dc dados, 3 de paridade). Neste cxemplo usaremos 
farbitrariamente) paridade por. 

Cada bit de paridade verifica posięóes especificas dc bits; o bit de paridade e estabelccido dc modo que o 
numero de I s nas posięoes verilicadas seja par. As posięócs dc bits veri!icadus pelos bits dc paridade sio 

Bit 1 venfica bits 1. 3. 5. 7. 9, 11. 13. 15. 17.19. 21. 

Bit 2 verrfica bits 2. 3. 6, 7, 10. 11. 14. 15, 18. 19. 

Bit 4 verifica bits 4. 5. 8, 7. 12. 13. 14. 15. 20. 21. 

Bit 8 verifica bits 8, 9. 10, 11. 12, 13, 14, 15. 

Bit 16 verifica bits 16, 17, 18. 19, 20, 21. 

Em geral. o bit h e veriticado pelos bits />,. h-, . hj tais que + b, +... + bj = b. Por cxcmplo, o bit 5 ć veri- 

ticado pelos bits 1 e 4 porquc I + 4 = 5. O bit 6 e veriticado pelos bits 2 e 4 porquc 2 f 4 = 6 e assim por diante. 

A Figura 2.13 mostra a construęao de um código dc Hamming para a palavra de memória de 16 bits 

111 1000010101 110. A paiuvra de código dc 21 bits e 001011 l(XXXX)10l 1011II). Para ver como funciona a corrc- 

ęao dc erros. considere o que aconteceria se o bit 3 fosse invertido por urna sobrecarga clelnca na linha de foręa. A 
nova puiavra de código seria 0010011(XXXX)I01101110 em vez de 001011100000101101110. Os 5 bits dc parida- 
de serio vcrificados com os seguintes resultados: 

Bit de paridade 1 incorreto (1, 3, 5, 7. 9, 11,13, 15. 17, 19, 21 contdm cinco 1s). 

Bit de paridade 2 correto (2. 3, 6, 7, 10,11,14, 15, 18. 19 contśm seis 1s). 

Bit de paridade 4 incorreto (4, 5, 6, 7, 12, 13, 14, 15, 20, 21 contem cinco 1s). 

Bit de paridade 8 correto (8, 9, 10. 11. 12. 13, 14, 15 contem dois 1s). 

Bit de paridade 16 correto (16, 17, 18.19. 20. 21 contem quatro 1s). 
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O numero total dc ls nos bits 1. 3,5. 7. 9, U, 13, 15, 17, 19 e 21 deve ser urn numero par porquc estii sendo 
usada a paridade par. O bit incorrcto deve ser um dos bits verificados pelo bit dc paridade 1 — ou seja, bit l, 3, 5. 
7, 9, 11, 13. 15, 17, 19 ou 21. O bit dc paridade 4 esid incorrcto, o que significa que um dos bits 4, 5, 6. 7. 12, 13. 
14, 15,20 ou 21 estd incorrcto. O erro deve ser um dos bits que esid cm ambas as listas. a saber, 5,7. 13, 15ou21. 
Contudo, o bit 2 estd corTeto, o que elimina os bits 7 c 15. De modo semclhante. o bil 8 estd correlo. climinando o 
bit 13. Por lim. o bil 16 estd eorrcto, eliminando o 21. O tinico bit que sobrou e 5, quc ć o bit quc estd com erro. 
Urna vez que foi lido como um 1. ele deveria ser um 0. Dessa maneira, os erros podcm ser corrigidos. 

Um metodo simples para aehar o bit incorrcto e calcular antes lodos os bits de paridade. Se todos estiverem cor- 
retos. nao houve nenlium erro (ou mais do que um). Hm seguida somar todos os bits de paridade incorretos, contan- 
do 1 para bit 1,2 para bit 2,4 para bit 4 e assim por diante. A soma rcsultante ć a posicao do bil incorrcto. Por cxem- 
plo, se os bits de paridade 1 e 4 estiverem incorretos, mas 2, 8 e 16 estiverem corrctos, o bit 5 (1 + 4) foi invertido. 

2.2.5 Memória cache 

Historicamente, as CPUs sempre foram mais rapidas do que as memórias. Conforme as memórias melhoraram 
as CPUs tambem melhoraram, mantendo o dcscquilibrio. Na verdadc, a medida que lica possivel colocar cada vez 
mais circuitos em um chip, os projetistas de CPU estao usando essas novas facilidades no paralelismo (pipelining) 
e em operaęao superescalar, fazendo com que as CPUs tiquem ainda mais velozes. Projetisuts de memória costu- 
mam usar nova tccnologia para aumentar a capacidadc dc seus chips, e nao a velocidadc. portanto parece que os 
problemas estao ticando piorcs com o passar do tempo. Na pratica. o significado desse desequilfbrio e que, após 
emitir uma rcquisiędo de memória, a CPU nao obtera a palavra de que necessita por muitos ciclos de CPU. Quanto 
mais lenta a memória, mais ciclos a CPU tera de esperar. 

Como jd destacamos, ha duas maneiras de tratar esse problema. O modo mais simples e somente iniciar 
READs (leituras) de memória quando elas forem encontradas, mas continuar executando c bloqucar a CPU se uma 
inslruęao tentar usar a palavra de memória antes de ela chegar. Quanto mais lenta a memória. mais freqaentemen- 
te esse problema ocorreni e maior serd a penalidade quando isso, de l ato, ocorrer. Por excmplo, se o a traso de memó¬ 
ria for dez ciclos, i muito provdvel que uma das próximas dez instruęóes tentard usar a palavra lida. 

A outra soluędo d ter mdquinas que ndo ficam bloąueudas mas, em vcz disso. requcrcm que o compilador ndo 
gerc código para usar palavras antes que elas tenham chegado. O problema e que 6 muito mais Idcil 1'alar dessa abor- 
dagem do que executd-la. Muitas vezes ndo ha nada mais a lazer após um LOAD (carregar), portanto o compilador 
Ł foręado a inserir instruęóes NOP (nao-operaędo), que nada mais fazem do que ocupar um inlervalo (slot) e per- 
der tempo. Com efeito, essa abordagem e um bloqueio de software em vez de um bloqueio de hardware, mas a 
degradaęao do desempenho 6 a mesma. 

Na verdade, o problema nao e tecnológico, mas económico. Os engenheiros sabem como construir memórias 
tao rapidas quanto as CPUs, mas para que executem a toda velocidade, elas tem de estar localizadas no chip da CPU 
(porque passar pelo barramento para alcanęar a memória e uma operaęao muito lenta). Instalar uma memória gran¬ 
dę no chip da CPU faz com que esta fique maior e. portanto. mais cara. Ainda quc o custo nao fosse uma questdo 
a considerar. ha limites de tamanho para um chip de CPU. Assim, a opęao se resume a ter uma pequena quantida- 
de de memória rapida ou uma grandę quantidade de memória lenta. O que nós gostariamos de ter e uma grandę 
quantidade de memória rapida a prcęo haixo. 

O interessante e que ha tecnicas conhecidas paru combinar uma pequena quanlidude dc memória rapida com 
uma grandę quantidadc de memória lenta para obter (quase) a vciocidadc da memória rapida e u capacidadc da 
memória grandę a um prcęo moderado. A memória pcquena e rapida e denominada cache (do frances cacher , quc 
significa ‘esconder’ e se pronuncia ‘cuchę’). Em seguida. descreveremos brevcmentc como as caches sao usadas c 
como funcionnm. O Capftulo 4 aprcsenta uma descriędo mais detalhada. 

A idćia basica dc uma cache ć simples: as paluvras de memória usadas com mais frcqiićncia sao mantidas na 
cache. Quando a CPU prccisa de uma palavra, ela cxaminu cm primeiro lugar a cache. Somente se a palavra nao 
estiver ali ć que ela reeorre a memória principal. Se uma fraęao substanciai das palavras estiver na cache. o tempo 
medio de acesso pode ser muito reduzido. 

Assim. o sucesso ou o fracasso depende da fraęao das paluvras que estao na cache. Ha anos todos sabemos que 
programas ndo acessam suas memórias cm total alcatoricdade. Se uma dada referenda a memória lor para o endc- 
reęo A, e provavel quc a próxima referencia a memória estara na vizinhanęa geral dc A. Um exemplo simples e o 
próprio programu. Hxceto quando se trata de desvios c de chamudas dc procedimento, as instruęóes sao buscadas 
cm 1 ocalizaęóes eonsccutivas da memória. Alem do mais. grandę parte do tempo de exccuęao de um programu ć 
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Fiyura 2.14 

A localizaędo lógica da cache 
e entre a CPU e a memória 
Principal. Cm termos fisicos 
ba fiiversos iugarcs em que 
ela podena estar iocaiizada. 


gasto cm laęos, nos quais um numero limitado de instruęóes ć cxecutado repetidas vezcs. Dc modo semelhante. ć 
provavel que um programa dc manipulaęio de matrizes fara muitas refercncias a mcsma matriz antcs dc passar para 
outra coisa qualqucr. 

A obscrvaęao dc quc refercncias a memória feitas cm quaiquer intervalo dc tempo curto tcndcm a usar apenas 
urna pcqucna fraęao da memória totai e denominada principio da localidade c fontu a basc de todos os sistemas 
de cache. A ideia geraJ e que. quando urna paJavra for refereneiada, cla c aigumas dc suas vizinhps sejam trazidas 
da memória grandę c lenta para a cache, de modo que, nu próxima vez em que for usada, ela possa ser acessuda 
rapidamente. Um arranjo comum da CPU, cache c memória principal e ilustrado na Figura 2.14. Se uma palavra for 
lida ou cscrita k vezes em um curto intervalo de tempo, o computador precisara de l referenda a memória lenta c 
k - I referćnctas i memória ripida. Quanto maior for k. melhor sera o desempenho global. 

Podemos formalizar esse calculo introduzindo c, o tempo de accsso a cache; m, o tempo dc accsso a memória 
Principal; c A. a taxa de acerto. que ć fraęao de todas as refercncias que podcm ser cumpridas com base na cache. 
Em nosso pequeno exemplo do parigrafo anterior, h = (k - \)/k. Alguns autores tambćm definem a taxa de falha 
(na cache), que ć I - h. 

Com essas dcłinięóes, podemos calcular o tempo dc acesso medio como segue: 

tempo de acesso medio = c + (1 - h) m 

A medida quc h todas as refcrćncias podem ser satisfeitas fora da cache e o tempo de acesso mćdio se apro- 
xima de c. Por outro lado. i medida que h 0, loda vez sera necessaria uma refcrćncia a memória. ponanto o tempo 
dc accsso sc aproxima dc c + m. primciro um tempo c para vcriłicar a cache (sem sucesso) e entao um tempo m 
para fazer a rcfercncia a memória. Em alguns sistemas, a referencja a memória pode ser iniciada cm paralelo com 
a busca na cache, dc modo que, sc ocorrcr uma falha na cache ( cache miss), o ciclo da memória jd tera sido inicia- 
do. Contudo. cssa estrategia rcquer quc a memória possa ser interrompida se houver uma presenęa na cache ( cache 
hit), o que toma a implantaęao mais complicada. 

Usando o principio da localidade como guia. memórias principais e cachcs sao divididas cm blocos dc tama- 
nho fixo. Ao nos referirmos a esses blocos dentro da cache. eles sao comumcnte chamados dc linhas de cache. 
Quando a busca na cache falha, toda a linha de cachc i carrcgada da memória principal para a cachc. e nao apenas 
a palavra quc sc qucr. Por excmplo, com uma linha dc cachc de 64 bytes de tamanho. uma rcferfincia ao endcrcęo 
de memória 260 puxar:i a linha que consistc nos bytes 256 a 319 para uma linha de cache. Com um pouco de sonę, 
aigumas das outras palavras nu linha de cache tambem serio nccessdrias cm brcve. Esse tipo dc opcroęio e mais 
eficientc do que buscar palavras individuais porquc e mais nipido buscar k palavras de uma vez só do quc uma pala- 
vra k vczcs. Alćm disso, ter entradas dc cache de mais do quc uma palavra signiiica que hd menor numero dclas: 
por conseguintc, e prcciso menos memória auxiliar (overhead). 

O projeto de cachc e uma questio de importincia cada vez maior para CPUs de alto desempenhri. Um aspcc- 
lo e o tamanho da cache. Quank> maior a cachc, melhor seu funcionamento. mas tambem maior ć o custo. Um 
segundo aspecto ć o tamanho da linha de cachc. Uma cachc de 16 KB pode ser dividida cm atć 1.024 linhas dc 16 
bytes. 2.048 linhas dc 8 bytes e outras eombinaęóes. Um tcrceiro aspecto e a mancira dc organizaęao da cachc. isto 
ć, como cla controlu quais palavras de menHiria estao seudo inantidas no momento. Exammaremos caches dciałhu- 
damenlc no Capitulo 4. 

Um quarto aspecto do projeto ć se as instruęócs c dados sao mantidos na mcsma cachc ou em caches difcrcn- 
les. Ter uma cache unificada (instruęóes e dados usam a mesma cache) ć um projeto mais simples c mantem auto- 
maticamentc o cquilibrio entre huscas de instruęóes e buscas dc dados. No entanto. a tcndćncia hoje e uma cache 
dividida. com instruęócs em uma cache e dados na outra. Esse projeto tambem ć denominado arquitctura 
Harvard c essa referencja volta ao passado ate o computador Mark III de Howard /kiken. quc tinha memórias dile- 
rentes para instruęócs c dados. A foręa quc impcle os projetistas nessa direęao e a utilizaęao muito difundida dc 
CPUs com paralclismo (pipelincd). A unidadc de busca dc instruęao prccisa accssar instruęócs jo mesmo tempo 
que a unidadc dc busca dc operandos precisu de acesso aos dados. Uma cache dividida permitc accssos parulclos: 
uma cachc unilicada. nao. Alćm disso. uma vez quc as instruęóes nao sio modiiicadas durantc a cxccuęao. o con- 
tcudo da cachc de instruęao nunca tern dc ser cscrito dc volla na memória. 

Por lim, um quinto aspecto ó o numero dc caches. Hojc em dia nio ć incomum ter chips com uma cuchę pri- 
maria no chip. uma cachc secunddria fora do chip. mas no mesmo pacotc do chip da CPU, e uma tcrceira cachc 
ainda mais distante. 
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® 2.2.6 Empacotamento e tipos de memória 

Dc sile os primeiros dias da memória de semicondutor ató o infcio da decada IOW. a memória era fabricada. 
comprada c instalada como chips dnicos. As densidades dos chips iam de I K bits atć I M bits e alćm, mas cada 
chip era vendido como uma unidade separada. Os primciros PCs eostumavam ler siKjuctes vazios nos quais podi- 
am ser ligados chips dc memória adicionuis, se e quando o comprador preeisas.se deles. 

Agora, usa-se um arranjo diferente. Um grupo dc chips, normalnienie 8 ou 16, ć montado cm uma mimiscula 
płaca de circuito impresso e vendido cumo uma unidade. Essa unidade e denominada SIMM (Single Inline 
Memory Module — modułu linico de memória em linha) ou um DIMM (Dual Inline Memory Module — 
modułu duplo dc memória em linha). dependendo de ler uma tileira de concctores dc um só lado ou de ambos os 
lados da płaca. Os SIMMs tem um conector de burda com 72 contatos e transferem 32 bits por ciclo de relógio. Os 
DIMMs em geral tćm concctores de borda com 84 contatos em cada lado da płaca, perfazendo um total de 168 eon- 
latos e transferem 64 bits por ciclo dc relógio. Um excmplo dc SIMM e ilustrado na Figura 2.15. 

Uma configuraęao tfpica dc SLMM ou DIMM poderia ter oito chips de dados com 256 megabits (32 MB) cada. 
Entao. o módulo inteiro conteria 256 MB. Muitos computadores tem espaęo para quatro módulos. o que di uma 
capacidade total de I GB se usarcm módulos de 256 MB e mais. sc usarem módulos maiorcs. 

Um DIMM lisicttmente menor. denominado SO-DIMM (Smali Outline DIMM — DIMM pequeno perfil) 
e usado cm notebooka. Pode-se adicionar um bit de paridadc ou corrcęao de erro a SIMMs e DIMMS, porćm, visto 
que a taxa media dc etro de um módulo e de um erro a cada dcz anos, na maioria dos computadores de uso comum 
e domestico, detccęao e corrcęao de erros sao omitidas. 
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2.3 Memória secundaria 

Scja qual for o tumanho da memória principal, cla sempre serii muito pequcna. As pessoas semprc qucrcm 
armazenar mais infomuęfies do quc u memóna pode eonter prineipalmente porque. a medida que a tecnologia 
melhora. clas comeęam a pensar em armazenar coisas quc antes estavam intciramentc no reino da flcęao eienufica. 
Por cxemplo, como as diretrizes oręamentarias do govemo dos Estados IJnidos obriga as agćncias govemamentais 
a gerar sua própria rcccita. podemos imaginar a Biblioteca do Congresso (I.ibrary of Congrcss) decidindo digitali- 
zur e vender todo o seu coniciido como um artigo de eonsumo (‘Todo o eonhecimento humano por apenas USS 
99,95"). Aproximadamentc 50 milhóes de livros, cada qual eom 1 MB de texto e 1 MB de figuras comprimidas, 
rcquercm armazenagem de 10 14 bytes ou 100 terabytes. Armazenar lodos os 50 mil filmcs produzidos ate agora tam- 
bem faz parte desse eamaval. Essa quantidade dc informaęiio nao cabcra na memória principal. ao menos por algu- 
mas decadas. 

2.3.1 Hierarąuias de memória 

A soluęao tradicional para armazenar grandes quanlidades de dados e uma liicrurquia dc memória. como ilus- 
irada na Figura 2.16. No topo esldo os rcgistradorcs de CPU. que podem ser aeessados a velocidade total da CPU. 
Em seguida vem a memória eachc. que alualmente esta na faixa de 32 KB a alguns megubytes. A memória vcm logo 
após. boje eom tamanhos que vao dc 16 MB para sistemas basicos ate dezenas de gigabytes na extrcmidade mais 
altu. Depois vem os diseos mugneticos. o utual burro de eargu da arma/enagem permunentc. Por fim. temos tiius 
magneticas c diseos ólieos para .utnazenagem de arquivos. 
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A mcdida que dcsccmos na hierarquia, trćs paranictros aumcniam. Primciro, o tempo de accsso fica maior Os pi 

rcgistradores da CPU podcm ser acessados em alguns nanossegundos. Memórias cache demoram urn pcqucno mdl- ^ 

tiplo dos regisiradorcs de CPU. Acessos a memńria principal normalnienie levam algumns dezcnas de nanossegun¬ 
dos. Agora vcm uma grandę lacuna, porpue tempos de aeesso a discos suo no minimo 10 milissegundos e acessos a 
fitas ou discos óticos podcm ser medidos em segundos sc a midia uver dc ser buscada e inscrida no drive. 

Em segundo lugar. a eapacidade de armazenagem aumenta a medida que dcsccmos na hicrarquia. Rcgistradores 
de CPU sao bons para. tulvez. 128 bytes, caches para uns poucos megubytes, memórias principais para dezenas a 
milharcs dc megabytes. discos magnćticos para alguns gigabytes a dezcnas dc gigabytes. Filas e discos óticos siło 
usuaimente mantidos fora da linha, portanio sua eapacidade e limiiada apenas pelo ornamentu do usuario. 

Em tcrcciro lugar. o mimero dc bils por dolar gasio aumenta dcscendo a hierarquia. Embora os prcęos atuais 
mudcm com rapidcz, a memória principal e mcdida em dolares/megabyte. armazenagem em disco magnetico em 
centavos/megabytc. e armazenagem em lita magnelica em dólares/gigubytc ou menos. 

Ja vimos registros, cache e memória principal. Nas scęóes seguinies, vamos examinar discos magnćticos; de- 
pois. estudaremos discos óticos. N3o estudaremos fuas porque sao raramente usadas. cxceto para cópias dc segu- 
ranęa (back-up) e. em todo easo. nao ha mdita coisa a dizer sobre elas. 

2.3.2 Discos magneticos 

Urn disco magnćtico ć composio dc urn ou mais pratos de aluminio com urn rcvcstimento magnctizdvel. No 
infcio, esses pratos tinham ate 50 cm dc diametro, mas agora tern normalmcnte de 3 a 12 cm, c discos para note- 
books jaestao com menos de 3 cm e continuom cncnlhendo. Urn cabcęote de disco quc contem uma bobina de indu- 
ęao flutua logo acima da superficie. apoiado sobre urn colchao dc ar texceto para discos flexiveis. ondc tocam a 
superficie). Quando urna corrcntc positiva ou negaliva passa pelo cabeęotc. dc magnetiza a superficie logo abaixo 
delc. alinhundo as partfculas magneticas para a esquerda ou para a direita. dependendo da polaridudc da corrcntc. 

Ouando o cabeęotc passa .sobre uma drea magnetizadu. uma corrcntc positiva ou negativa ć induzida nclc. o quc pos- 
sibilita a lcitura dos bits armazenados antes. Assim. ii mcdida que o prato gira sob o cabeęotc, uma corrcntc dc bits 
pode ser escrita c mais tardc lida. A geometria de uma trilha de disco e mostrada na Figura 2.17. 

A seqiiencia circular de bits escritos quando o disco faz uma rotaęao complcta ć denominada trilha. Cada uma 
das trilhas ć dividida em ulgum numeru de setores dc tamunho tixo. quc normalmcnte contem 512 bytes de dados, 
prcccdidos por uni preambuło que pcrmiic a sincronizaęao do cabcęotc antes dc uma lcitura ou escrita. Em segui- 
da aos dados ha um código dc correędo de erros (ECC — Error-Correcting Codc), ou um código de Hamming ou. 
mais comumcntc. um código que pode corrigir miiiliplos erros. denominado código de Rced-Solomon. Entre seto¬ 
res consecutivos ha uma pequcna lacuna intersetores. Alguns fabricantcs citam a eapacidade de scus discos no 
estado sem formataę3o (como sc cada trilha contivcsse apenas dados), mas uma medida mais honesta ć a capacida- 
de no estado fomiuiado. que nao conta os predmbulos, ECCs e lacunas como dados. A eapacidade do disco fornia- 
tado i normalmcnte 15% menor do quc a eapacidade sem formataęao. 

Todos os discos tfim braęos móvcis quc podcm sc mover para dentro e para fora a diferentes disuincias radiuis 
da hastc ao redor da qual o prato gira. A cada distAncia radiol pode ser escrita uma trilha diferenie. Assim. as trilhas 
sao uma sćric dc circulos concćntricos ao redor da hastc. A largura da trilha depende da largura do cabeęotc c da 
prccisiio com que ele pode ser posicionado radialmcntc. Com a tccnologia atuul. os discos tćm entre 5.(XX) e 10.000 
trilhas por centimctro. rcsultando cm larguras de unlha na fuixa dc 1 a 2 micra (1 micron = 1/1.000 mm). Deve-se 
notar quc uma trilha nilo ć um sulco ffsico na superficie. mas simplesmente um and de materiał magnetizado com 
pequcnas areas de proteęao que o sepura das trilhas quc es tao dentro e fora dele. 

A densidade linear dc bits ao redor da circunfcrćncia da trilha e diferenie da radial. Ela ć determinada em gran¬ 
dę parte pcla pureza da superficie e pela quolidade do ar. Os discos de hoje atingem densidades dc 5<).(MX) a 100.(XM) 
bits/cm. Portanto. um bil ć eerca de 50 vczes maior nu dircęao radial do que ao longo da circunferćncia. 

Para atmgir densidades ainda mais altas. os fabricanies de discos estdo desenvolvcndo tccnologias nas quais a 
dimensao 'longa' dos bits nao osia ao longo da eircunfcrćncia do disco, mas na dircędo vcrtical. dentro do óxido dc 
ferro. F.ssa tćcnica e denominada gravaęao pcrpendiculur e seni comcrciali/ada dcium om brevc. 

Para conseguir altu quulidade dc superffcie e ar, a muiuria dos discos e selada na Itibrica paru evitar a entrada 
de pó. Esses drives stlo denominados discos Winchester. 
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Disco com ąuatro pratos. 
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Os primeiros dcsscs drivcs. criados pela IBM. tinham 30 MB dc armazenagem selada e fixa e 30 MB dc arma- 
zcnagcm rcmov(vel. Conta a historia que csses discos 30-30 lembravam as pessoas os rifles Winchester 30-30, quc 
desempenharam grandę papci na abertura das fronlciras norte-americanas, e o nome Winchester' ficou. 

A maioria dos discos ć composta dc varios pratos empilhados na vertical, como ilustrado na Figura 2.18. Cada 
upertTcio tem seu próprio braęo e cabeęotc. Os braęos sao agrupados de modo quc todos sc movimentem para diferen- 
tes posięóes radiais ao mesmo tempo. O conjunto de trilhas cm uma dada posięao radia! e denominado eilindni. Os dis¬ 
cos usados hoje cm PCs nomialmentc tem 12 pratos por drivc, o que rcsulta cm 12 a 24 supetficics de gravaęao. 

O desempenho do disco depende de uma variedade de fatores. Para ler ou escrcver um setor. primeiro o braęo 
deve se deslocar ate a posięao radial corrcta. Essa aęao i denominada buscu (seek). Tempos medios dc busca (entre 
tnihas aieatórias) estao na faixa dc 5 a 10 ms. embora buscas entre trilhas consecutivas agora ja estejum abaixo de 
l ms. Logo que o cabeęote esteja posicionado radialmentc, ha um atraso. denominado latencia rotacional. atć que 
o setor desejado girę sob o cabeęote. A maioria dos discos gira a 5.400 RPM, 7.200 RPM ou 10.800 RPM, portan- 
to o atraso mćdio (meia rotaęao) ć de 3 u 6 ms. O tempo dc transfcrencia depende du densidade linear e da veloci- 
dade de rotaęao. Com taxas de iransferćncia tfpicas de 20 a 40 MB/s. um setor dc 512 bytes demora entre 13 c 26 
/is. Por conscqiićncia, o tempo de busca c a latencia rotacional dominant o tempo dc transferćncia. Ler setores alea- 
lórios por todo o disco ć claramente um modo ineficientc de operar. 

Vale a pena mcncionar quc, por conta de preambulos, ECCs, lacunas intersetores. tempos de busca e latencias 
rotacionais ha uma grandę diferenęa entre a taxa maxima de raj uda (burst ratę) de um drivc e sua taxa maxima susten- 
tada. A laxu maxinta de rajada ć a taxa dc dados, uma vez que o cabcęotc estii sobie u primeiro bit de dados. O com- 
putador deve ser capa/ de manipuiar os dados quc estao chegando com essa mesma rapidez. Contudo, o drivc só pode 
monter essa taxa para um unico setor. Para algumas aplicaęóes. como multimfdia. o que importa e a taxa sustentada 
media durante um periodo dc segundos. quc tam be m tem dc lcvar cm conta as neccssarias buscas e utrasos rotacionais. 

Um pouco de racioefnio c a utilizaęuo daquclu vclha fórmula dc malemdtica do colegial para a circunferćneia 
de um circulo. c = 2Pir. rcvelarilo que a distdncia linear ao redor das trilhas mais extemas e maior do quc a das tri- 
Ihas mais intemus. Uma vc/ que todos os discos magneticos girom com vclocidade angular constantc. nao impor- 
tando ondc estao os cabeęotes. essa observaęao cria um problemu. Nos drivcs antigos, os fabricantes usavam a mdxi- 
nta densidade linear possivel nu trilha mais intemu e densidades lincarcs dc bits succssivamcme menores nas trilhas 
mais extcmus. Sc um disco tivcs.se 18 setores por trilha, por cxcmplo. cada uma ocupava 20 graus dc arco, nao 
importando em qual eilindro se encontrava. 

Hoje, usa-se uma estratćgia diferente. Os eilindros siło divididos em /onas (normalnienie 10 a 30 por drive) e 
o mimero dc setores por trilha aumenta de /.ona cm /.ona partindo da trilha mais interna para a mais extcma. Essa 
mudanęa dificulta o rastrcamcnlo dc informaęócs mas aumenta a capacidade do drive. quc e considerada mais 
importantc. Todos os setores sao do mesmo tantanho. A Figura 2.19 mostra um disco com cinco zonas. 


Disco com cinco zonas. Cada 
zona tem mrntas tnihas. 




I 
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Associado a cada drive ha um controlador de disco, urn chip que controla o drivc. Alguns controladores contem 03 

urna CPU completa. Entrc as tarefas do conirolador cstao accitar comandos do software, como READ. WR1TE c 'T 

FORMAT (escrcvendo todos os preambulos), controlar o movimento do braęo, dctectar e corrigir erros o convener 
bytes de 8 bits lidos na memória om uma correnie serial de bits e vice-versa. Alguns controladores tambem mani¬ 
pulant o butler de multiplos setores, fazendo cache dc sełores lidos para potencial uso futuro e rcmapcando seto- 
res ruins. Essa ultima funęao e causada pela existencia dc setores que tem um ponio ruim, ou seja. permanentemente 
magnetizado. Qtiando dcscobru um setor ruim. o conirolador o substitui por um dos setores sobressalcntcs reservados 
para esse firn dentro dc cada eilindro ou /.ona. 

2.3.3 Discos flexiveis 

Com o udvento do computador pcssoal. era prcciso um meio dc distribuir software. A soluęao cncontrada foi 
o disquetc. ou disco flexivc]. um meio removfvcl. pequcno, assim denominado porque os primeiros cram fisica- 
mentc flexivcis. Na verdade. o disco flexivel foi inventado pela IBM para gravar informaęócs de manutenęao de 
sous mainframes para o pcssoal dc servięo, mas foi rapidamente adotado pelos fabricantes dc computadorcs pes- 
soais como um meio convcnicnte de distribuir software para vcnda. 

As caraclcristicas gerais sao as mesntas dos discos quc acabamos de descrevcr, exceto que, diferentc dos dis¬ 
cos rfgidos, omie os cabcęotes flutuam logo acima da superfkie sobrc um eolchUo dc ar dc movimcnto rapido, os 
cabcęotes dc discos ilcxiveis na vcrdadc tocam os disquetes. O rcsultado e quc tanio o meio como os cubeęotes sc 
dcsgastam com relativa rapidc/.. Para reduzir o desgastc. os computadoies pessoais recolhcm os cabcęotes e param 
de girar quando um drivc nao estiver lendo ou cscrcvcndo. Por consequencia, quundo 6 dado o próximo comando 
de leitura ou escrita, ha um atraso de cerca de meio segundo ale o motor atingir a velocidade nccessaria. Discos fle- 
xiveis toram jsados durantc ccrca dc 20 anos, mas os computadorcs modemos geralmentc sao vcndidos sem clcs. 

2.3.4 Discos IDE 

Os discos dos modemos computadorcs pessoais cvolufram daqucie usado no IBM PC XT, quc era um disco 
Seagate de 10 MB controlado por um controlador dc disco Xcbec cm um cartao de encaixe (plug-in). O disco 
Seagate tinlta 4 cabcęotes, 306 ciiindms e 17 setores por trilha. O controlador conseguia mampular dois dnvcs. O 
sistema operacionai lia e escrcvia ern um disco colocando parametros em registradores de CPU c entiio chamando 
o BIOS (Basic Input Output System — sistema hasico de cutrada e sarda i locaiizado nu memória somente de 
leitura do PC. O BIOS emitia as instruęóes dc muquina para carrcgar os registradores do controlador dc disco quc 
iniciava as transferćncias. 

A tccnologiu evoluiu rapidamente c passou do controlador cm uma płaca sepurada para o controlador integra- 
do com os drives. comcęando com drivcs IDE (Intcgratcd Drivc Electronics — elctronica dc drives integrados) 
em mcados da dćcada de 1980. Contuilo. as convcnęócs de chumada do BIOS niio toram altcradas por causa da 
compatibilidadc. Essas convcnęóes de chumada endercęavam setores dando seus numeros de cabeęote, eilindro c 
setor, sendo quc a numeraęuo de eabeęotes e ciiindms comcęava cm 0. e a de setores, cm 1. Essa escolha provavcl- 
mentc sc devcu a um erro da parte do programador original do BIOS. que cscreveu sua obra-prirna em assembler 
8088. Com 4 bits para o cabeęote, 6 bits para o setor c 10 bits para o eilindro, o drive mtiximo podia ter 16 eabeęo¬ 
tes, 63 setores e 1.024 ciiindms para um total de 1.032.192 setores. Esse drivc maximo tinha uma cupacidade de 
504 MB. o quc pmvavelmente parccia uma intinidade naqucla epoca, porem, agora, ccrtamente nao. Roje voce cri- 
ticaria uma nova maquina quc nao pudesse tnanipular drives maiores do que um petabytc? 

Niio passou muito tempo e apareccram drives acima de 504 MB, mas com a geometria etiuda (por cwemplo. 

4 cabcęotes. 32 setores. 2.000 cilindros). O sistema operacionai nao conseguia endercęa-los dc modo algom, por 
causa das convcnęócs de chamada do BIOS havia muito cristalizadas. O rcsultado e que os controladores de disur 
comeęaram a mentir. tingindo quc a geometria estava denim dos limites do BIOS embora. na verdade. estava retna- 
peando a geometria virtuul paru a geometria rcal. Embora essa abordagem funcionasse. causava grandes eslragos 
nos óstemas opcracionais quc posicionavatn dados cuidadosamcnłc para minimizar tempos Je busca. 

Com o tempo, os drives IDE evoluiram para drives EIDE <Extended IDE — IDE estendido). que tatnbem 
suportavum um segundo esqucmu de endcreęamento denominado LBA t Logical Błock Addressing — endereca- 
mento de blocos lógicos). que nuinera os setores comeęando em 0 ale um maxrmo de 2‘ x - I. Esse esquema requer 
que o controlador converta endereęos LBA para endercęos de cabeęote. setor e eilindro, mas ultrapassu o liniite dc 
504 MB. Infclizmcnte. ele criou um novo gargalo a 2' yt X 2 9 bytes (128 GB). Em 1994. quando foi adotado o padrao 
EIDE. ninguetn ptaleria imaginar discos dc 128 GB. Coraites de padronizaęao. assim como politicos. tźm tenden¬ 
cja de empurrar problcmas para quc o próximo comite os rcsolva. 

Drives e controladores EIDE tambćm tinham outras melhorias. Por excmplo. controladores EIDE podiam ter 
dois canuis. cada um com um drivc primario e um sccundario. Esse urranjo permitia um moximo de quatn> drives 
por controlador. Drivcs dc CD-ROM e DVD tambem erant suportados, e a taxa de transferencia aumentou de 4 
MB/s para 16,67 MB/s. 

Enquanto a tccnologia dc disco continuava a melhorar. o padrao EIDE conlinuava a evoluir. mas. por alguma 
raziło, o succssor do EIDE foi denominado ATA-3 (Attachment), uma refcrencia ao IBM PC/AT (ondc AT se refc 
na a entao tccnologia avanęuda (Advanced Technology) de uma CPU de 16 bits exccutando em 8 MHz). Na edięao 
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O scguinte o padrao rcccbeu o nome de ATAPI-4 (ATA Packet Interfacc — intcrface de pacotes) e a velocidade 

uumeniou para 33 MB/s. Com o ATAPI-5 ela alcanęou 66 VlB/s. 

Nessa ćpoca, o timite dc 128 GB imposto pelos endereęos LBA dc 28 bits estava llcando cada vez mais 
amoa^ador. portanto o ATAP1-6 alternu o tamanho do LBA para 48 bits. O novo padrao cntrnu em diłiculdade 
quando os discos ehcgaram a 2 4K X 2” bytcs (128 PB). Com um aumento dc capacidade dc 50% ao ano. o Iimi- 
te dc 48 bits provavelmcnte durara ate aproximadamente 2035. Para saber como o problema Ibi resolvido, favor 
eonsultar a decima primcira edięao deste livro. A mclhor aposta e que o tamanho do LBA alcance 64 bits. O 
padrao ATAPI-6 tainbem aumcntou a taxa dc transfercncia para 100 MB/s e atacou a quc.stao do ruido do disco 
pela primcira vez. 

O padrao ATAPI-7 ć urna ruptura radical com o passado. Bm vcz de aumentar o tamanho do concctor do drivc 
(para aumentar a taxa dc dados). esse padrao usa o que e chamado ATA serial para transferu 1 bit por vez por um 
concctor de 7 pinos a vclocidadcs quc comcęam em 150 MB/s c que. com o tempo, espera-se que alcancem 14 
GB/s. Substituir o atual cabo piano de 80 fios por um cabo redondo com apcnas alguns millmetros a mais de espes- 
sura melhora o fluxo dc ar dcntro do computudor. Alem disso, o ATA serial usa 0,5 volts paru sinalizaędo (cm com- 
paraęao com os 5 volts dos dnves ATAPl-6), o que reduz consumo de energia. 

E provavel quc denim de aiguns anos. todos os computadores usarao ATA serial. A questao do consumo dc 
energia peios discos e cada vez mais importante, tanto na extremidade mais ulla do mercado. onde centrais de dados 
tćm vastas coleędcs dc discos, cumo nu mais baixa. onde os notebooks siło limitados em qucstHo dc energia 
(Gurumurthi et al.. 2003). 

2.3.5 Discos SCSI 

Discos SCSI nao siło diferentes de discos IDE em relaęao ao modo como seus eilindros, trilhas c setores s3o 
organizados. mas tćm urna interfacc diferente e taxas de transfcrćncia muito mais dcvadas. A historia dos SCSI 
remontu a Howard Shugart. o inventor do disco flcxivel. cuja empresa lanęou o disco SASI (Shugart Associates 
System Intcrface — interfacc de sistema da Shugart Associates) em 1979. Após algumas modiOcaęóes e muita dis- 
cussdo. a ANSI o padronizou cm 1986 e mudou o nome para SCSI i Smali Computer System Interface — intcr¬ 
face para sistemas cumputacionais pequenos). A pronuncia de SCSI em ingles e 'seazi', de scuzzy. Desde entao 
foram pailmnizadas versóes cada vez mais rapidas sob os nomes dc Fast SCSI (10 MHz), Ultra SCSI (20 MHz), 
Ultra2 SCSI (40 MHz), Ultra3 SCSI (80 MHz) e Ullra4 SCSI (160 MHz). Cada urna dessas versóes tambćm tern 
urna vcrsao larga (16 bits). As principais combinaęócs sao mostradas na Tabela 2.3. 

Como tern alias taxas dc transferenciu. os discos SCSI sao o disco padrao de grandę parte das estaęócs de tra- 
balho Unix da Sun. HP. SGI e outros fabricantes. Tainbem s3o o disco padrao em Macintoshes e PCs Intel de gran¬ 
dę porte, em espcciul scrvidores de rede. 

O SCSI ć mais do quc apcnas urna intcrface dc disco rigido. E um barTamcnto ao qual podcm ser conectados 
um controlador SCSI c atć sele dispositivos. Entrc estes podcm estar um ou mais discos rigido? SCSI. CD-ROMs, 
gravadorcs dc CD, scanners. unidades dc tlta e outros perifericos SCSI. Cada disposilivo SCSI tem um tinico DD, 
de 0 a 7 (15 para SCSI largo (Widc SCSI)). Cada dispositivo tern dois conectores: um para cnlrada e um para salda. 
Cabos conectam a salda de um dispositivo ii entrada do scguinte, em serie, como se fosse um cordao de lampadas 
baratas dc arvore dc Natal. O illtimo dispositivo do cordSo deve ser terminado para evitar que reflexócs das extre- 
midades do burramento SCSI intertiram com outros dados no barromento. Normaimente, o controlador ostu cm um 
cartiio dc cncaixc (plug-in) e no imcio da cadcia de cabos. embora essa configurayao nao seju urna exigencia os tri- 
ta do padrao. 


Tabela 2.3 Algtins dos possiveis pardmetros SCSI. 


| Nome 

Bits de dados 

j Freguencia do barramento (MHz) i 

MB/s 1 

SCSI-1 

8 

5 

5 

Past SCSI 

8 

10 

10 

Wlde Past SCSI 

16 

10 

20 

Ultra SCSI 

8 

20 

20 

Wlde Ultra SCSI 

16 

20 

40 

Ultra2 SCSI 

8 

40 

40 

Wlde Ultra2 SCSI 

16 

40 

80 

Ultra3 SCSI 

8 

80 

80 

Wlde Ultra3 SCSI 

16 

80 

160 

Ultra4 SCSI 

8 

160 

160 

Wlde Ul trał SCSI 

16 

160 

320 



O caho tnais comum para SCSI dc 8 bits tem 50 fios. 25 dos quais sao terras quc fazcm par com os outros 25 <— 

fios para dar cxcelentc imunidade contra ruido, necessiiria para operaędo cm alta vclocidade. Dos 25 fios, 8 sao para m 

dados. 1 ć para paridade, 9 sao para controle e os rcstantes sao para energia cletrica ou resemdos para uli liznęło 
futura. Os dispositivos dc 16 bits (e 32 bits) precisam dc um segundo cabo para os sinais adicionai.s. Os eahos podom 
ter muitos metros de comprimento. o que permite drivcs. scanners cxtemos etc. 

Controladores c pcrifericos SCSI podcm funcionar como iniciadorcs ou como aJvos. Normalmcnte o contro- 
lador. agindo como iniciador, emitc comandos para discos c outros pcniericos quc agem como aivos. Esscs comun- 
dos siło blocos de atć 16 bytes que dizem ao a!vo o que cle tem de fazer. Comandos c rcsposuis ocorrem cm fases. 
usando vdrios sinais dc controle para dclincar as fases e arbitrar o accsso ao barramento quando varios dispositivos 
estao tentando usa-lo ao mesmo tempo. Essa arbitragem ć importantc porquc o SCSI pcrmttc quc todos os disposi- 
tivos funcioncm simultaneamente. o quc dc modo poicncial rcsulta em grandę aumento do desempenho em um 
ambiente cm que hd multiplos processos ativos ao mesmo tempo (porexemplo, Unix ou Windows XP). IDE e E1DE 
permitem somentc um disposiiivo ativo por vez. 

2.3.6 RAID 

O desempenho da CPU vcm aumentando exponencialmentc na ultima decada e dobra aproximadamentc a cada 
18 meses. O mesmo nao acontcce com o desempenho do disco. Na dćcada de 1970, os tempos mćdios de busca em 
| discos de minicomputadores oram dc 50 a 100 ms. Agora, os tempos dc busca siio de 10 ms. Na maioria das indus- 

trias teenieas (por exemplo, automóveis ou aviaęło), um fator de 5 a 10 de melhoria de desempenho em duas dćca- 
das seria urna grandę notfcia, mas na industria de computadores e constrangedor. Assim. a lacuna entre o desempe- 
| nho da CPU e o desempenho do disco ticou cada vez maior com o passar do tempo. 

Como vimos. muitas vezes e usado processamento paralelo para aeclerar o desempenho da CPU. Ao longo dos 
anos ocorreu a vjirias pcssoas que E/S paralela tambem poderia ser urna boa idćia. Em seu artigo de 1988, Patterson 
i et al. sugeriram seis organizaęfles espectficas de disco que podenam ser usadas para melhorar o desempenho, a eon- 

fiabilidade do disco, ou ambos (Patterson et al.. 1988). Essas ideias foram rapidamentc adotadas pcla industria c 
deram origem a urna nova classe de dispositivo de E/S denominado RAID. Patterson ct al. definiram RAID como 
I Kedundant Array of lnexpensive Disks larranjo redundante de discos baratos), mas a industria rcdcfiniu o I 

como •independentc’ cm vcz de baralo ( inexpensive) — tnlvez para quc pudessem usar discos caros? 

| Jd que tambem era prcciso ter um vilao (como no caso RISC versus CISC, tambem devido a Patterson), nesse 

| caso o bandido era o SLED (Single Lurge Expensivc Disk — disco tinico grandę e euro). 

A idćia fundamcntal dc um RAID ć instalar urna caixa cheia de discos próxima ao computador, ent gcral um 
( grandę servidor, substituir a płaca do controlador de disco por um controlador RAID. copiar os dados para o RAID 

. c cniao continuar a execuęło normal. Em outros pulavrax. um RAID dcveria parecer um SLED para o sistema ope- 

racionul, mas ter mclhor desempenho c melhor confiabilidadc. Urna vez que discos SCSI tem bom desempenho, 
j baixo preęo e a capacidade dc ter ate 7 drives em um unico controlador (15 para o Wide SCSI), ć natura! que a maio- 

. ria dos RAlDs consista em um controlador RAID SCSI muis unia caixa de discos SCSI que parcccm um unico disco 

' grandę para o sistema opcracional. Portanto. nao e prcciso altcrur o software para usar o RAID, um ótimo argumen- 

| to dc venda para muitos administradores de sistemas. 

Aletn de parccerem um disco unico pura o software, tui urna pmpriedade comum a todos os RAIDs, que e a 
distribuięło dos dados pclos drivcs para permitir o poraniło paralela. Patterson et al. deliniram varios esquemas difc- 
| rentes para fazer isso e. agora, eles sao conhecidos como RAID nivcl 0 atć RAID nivcl 5. Alem disso. hd alguns 

outros nivcis menos importantes que niio discutiremos. O termo nivel ć, dc certa maneira. uma dcnominaęao impró- 
' pna. uma vcz que nao ha nenhuma hicrarquia cnvolvida; hd simplcsmentc seis diferentes organizaęóes possfvcis. 

| O RAID nfvel 0 ć ilustrado na Figura 2.20(a). Consistc em ver n disco virtual simulado pelo RAID como se 

fosse dividido em tiras de A setores cada: os seiores 0 a A - 1 sdo a tira 0. os setores A a 2A - 1 sdo a tira 1 e assim 
I por dianie. Para A-l, cada tira e um setor: para A — 2. uma lira sdo dois setores etc. A organizaęło RAID nivel 0 

. cscrcvc tiras consecutivus nos drives por aitcmancia circular. como dcmonstrado na Figura 2.20<a) para um RAID 

com quatm drivcs dc disco. Essa distrihuicdo de dados por multiplos drives ć denominada striping. Por cwemplo, se 
' o software emilir um comando paru ler um bloco dc dados quc consistc em quatro tiras consecutivus e comeęa nu 

I borda da tira. o controlador RAID subdividini esse comando em quatro comandos seporados, um para cada um dos 

quatro discos. e lara com quc eles funcioncm em paralelo. Assim. temos E/S paralelu sem que o software saiba disso. 

I O RAID mvel 0 funciona melhor com rcqtiisiędes grandes; quanto maiores, mclhor. Se uma requisięao for 

I maior do que o numeru de drives vczes o tamanho da tira. alguns drivcs receberiio mtiliiplas requisiędes. de modo 

que. quando terminam a pnmeira requisięło. iniciam a segunda. Cabe ao controlador dividir a requisięao e alimen- 
I tar os comandos adequados aos discos adequados na seqilfincia certa e entiło agmpar os resultados na memória cor- 

* rctamentc. O desempenho ć cxcelentc c a implemcntaęao ć direta. 

O RAID mvcl 0 funciona piur com sistemas opcracionais que cos tu mam rcquisitar dados a um setor por vcz. 

I Os resultados serao corrctos, mas nao hd paralelismo e, por conseguinte. nenhum ganho de desempenho. Uma outra 

dcsvantagcm dessa organizaęao e que a confiabilidadc e potcncialmente piór do que ter um SLED. Se um RAID 
consistir em quatro discos. cada um com um tempo mćdio dc falha de 20.000 horas. apmximadamente umu vez a 
| cada 5.000 horas um drivc lalhara e havcni perda total dc dados. Um SLED com um tempo medio de falha de 20.000 

horas sera quatro vczcs mais contiavel. Como nao ha nenhuma redundancia presente nesse projeto. nu rcalidade ele 
nao ć um verdademi RAID. 
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A próxima opęao, RAID nivel 1. mostrada na Figura 2.20(b), ć um RAID verdadciro. Ele duplica todos os dis- 
cos. portanto ha quatro discos primarios e quairo discos de back-up. Para uma escrila. cada lira e cscriia duas ve/.es. 
Para uma leilura. quaisquer das duas cópias pode ser usada, distribuindo a targa por mais drives. Por conseqQencia. 
o desempenho da cscriia nao e melhor do que o dc um dnico drivc. mas o desempenho de leilura pode ser duas ve*es 
melhor. A tolerancia u falha e cxcelcntc: se um drive fulhar. hasła usar u ouira topi a em seu lugar. A recuperaęao 
consiste na simples instalaęao de um novo drivc e em copiur todo o drive dc back-up para ele. 

Difercntcmentc dos nfvcis Del. que irabalham com liras de setores. o RAID nfvd 2 uabalha por paiavra possi- 
velmcntc ale por byle. Imaginc dividir cada byte do disco virtual dnico cm um par dc nibbles de 4 bits c entiiu acres- 
cenlar um código de Hamming a cada um pura formar um pa!uvra de 7 bits. dos quais os bils I, 2 e 4 tossem biis dc 
paridade. Imaginc uindu quc a posiliło do braęo e a posiyao roiacional dos scic drivcs da Figura 2.2(Xc) tossem sinero- 
nizadas. Eniiio seria possivcl esciever a palavm de 7 bits codiflcada por Hutnming nos sete drives, um bił por drivc. 

O coinputador Thinking Machinę CM-2 usou esse esquema. pegando palavras dc 32 bits tle dados e adicio- 
nando 6 bits de paridade para formar uma palavra Hamming dc 38 bits. mais um bit extra para pandadc de palavra. 
e dislnbumdo cada palavra em 39 drives de disco. O rcndimenio total era imenso porque em um tempo dc setor ele 
podia escrcvcr o cquivalentc a 32 setores de dados. Alem disso. perder um drivc rido causava problcmas, porque essa 
l>erdu equivalcria u perder 1 bit em cada palavra de 39 bits lida, algo quc o código dc Hamming poderiu manipular 
facilmente. 

Uma dcsvantagcm e que esse esquema requer que as rotaędes dc todos os drives sejam sineronizadas. e isso 
só faz senlido com um numero subslancial de drives (mesmo com 32 drivcs de dados c 6 drives dc paridade. a sobre- 
carga seria dc 19%). O cxqucma lambem exige muito do controlador, urna vcz que ele devc ctciuar uma soma de 
verificaęao ( checksum) de Hamming a cada lempo de bit. 

O RAID nivcl 3. ilustrado na Figura 2.2(Xd), e uma vcrsao simplificada do RAID nivel 2. Nesse arranjo. um 
linico bit de paridade e computado para cada palavra de dados e escrito em um drivc de paridade. Como no RAID 
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ni'vcl 2, os drives dcvem csiar ctn exata sincronia. uma vez quc palavras de dados individuais cstiło distribuidas por 
miiltiplos drives. 

A primeira vista, pode parccer que um linico bit de paridade da somcnte detccęao de erro, e nao correęao de 
erro. Para o caso dc erros aJeatorios nao detectados. cssa obscrvaęao ć vcrdadcira. Todavia, para o caso dc uma talha 
de drive, ela prove correęao total de erros dc 1 bit, uma vez que a posięao do bit dcfeituoso e conheeida. Se um drive 
faJhar. o controlador apenas tinge que todos os seus bits sao ()s. Se uma palavra tiver um erro de paridade. o bit que 
vem de um drive cxtinto deve ter sido um 1, portanlo. e corrigido. Embora ambos os RAID nfveis 2 e 3 ofcreęam 
iaxas de dados muito alias, o numcro de requisięóes separada.s dc E/S por segundo que eles podem manipular nao 
e melhor do que u dc um unico drivc. 

RAID mvci.s 4 e 5 novanicnte trabalham com tiras, e niio com palavras individuais com paridade, e nao reque- 
rem drives sincronizados. 0 RAID ntvel 4 (veja a Figura 2.20(e)) i como o RAID nlvel 0, com paridade tira por 
tira escrita cm um drive extra. Por exemplo, se cada tira tiver k bytes de comprimento. todas as tiras passam por uma 
operaęao de OU EXCLL'SIVO. resultando em uma tira de paridade dc k bytes de comprimento. Se um drive falhar, 
os bytes perdidos podem ser rccalcuiados com base no drivc de paridade. 

Esse projeto protegc contra a perda dc um drive. mas scu desempenho e mediocre para pcquenas atualizaęócs. 
Se um setor for altcrado. e nccessario ler todos os drives para rccalculur a paridade quc, entao, prccisard ser rees- 
crita. AItcmativamcnte. cle pode ler os velhos dados de usuario e os veihos dados de paridade e rccalcular a nova 
paridade, c partir delcs. Mcsmo com cssa otimizaęao, uma pcquena atualizaęao requer duas loituras c duas escrilas. 
o que ć, cłaramcnte. um mau arronjo. 

Como conseq(ićncia da carga pesada sobre o drive de paridade. cle pode se tomar um gargalo. Esse gargalo e 
eliminado no RAID nivel 5 distnbuindo os bits de paridade uniformemente por todos os drives. por altcmiincia cir- 
cular. como mostra a Figura 2.20(f). Contudo. no cvento de uma talha de drive. a reconstruędo do drive lanificado 
e um processo complexo. 

2.3.7 CD-ROMs 

Discos óticos foram descnvolvidos originalmentc para gravar program as de televis;io. mas podem ser utiliza- 
dos para uma funęao mais estćtica como dispositivos de armazenagem de computadores. Devido a sua grandę capa- 
cidade c baixo preęo. discos óticos sao muito usados para distribuir software, livros, fi!mes e dados de todos os 
tipos. bem como para fazer back-up de discos ngidos. 

A primeira gcraęao de discos óticos foi invcntada peia Philips, o conglomerado holandes de eletrónica, para 
contcr filmes. Ttnham 30 cm dc diametro e eram eomercializados com a marca LaserVision, mas nao se cstabele- 
cerom. cxceto no Japńo. 

Em 1980. a Philips, junto com a Sony. desenvolveu o CD (Compact Disc), que rapidamenie substituiu os dis¬ 
cos dc vinil de 33 1/3 RPM usados para gravar musica. Os dados tecnicos exatos do CD foram publicados em um 
Padriio Internacjonał IS 10149. populurmente conhecido como Red Book (Livr» Vermeiho) por causa da cor de 
sua capa. (Padróes Intcmacionais sao emitidos peia International Organization for Standardization, que ć a contra- 
partc intemacional de grupos dc padronizaęao nacionais como ANSI, DIN etc. Cada um tern um numcro IS.) O 
motivo da publicaędo das espcciticaęócs do disco e do drive como um Padriio Intemacional i permitir que CDs de 
diferentes gravadoras e aparelhos dc reproduęao de diferentes fabricantcs funcioncm em conjunto. Todos os CDs 
tem 120 mm de diametn) e 1.2 mm dc espessura. com um orificio de 15 mm no meio. O CD de audio foi o primei- 
ro meio de armazenagem digital a ter sucesso no mercado de massa. Supóe-se quc devam durar cem anos. Favor 
vcrificar em 2080 uma atualizaęao sobre como se saiu o pritneiro lotc. 

Um CD e preparadu com a utilizaęao de um laser infravermclho de aita potencia para qucimar onflcios dc 0,8 
mferon (ic diametn) cm um disco mestre revestido dc vidm. Com base nesse mestre e fabrieado um moldc. com salićn- 
cias onde estavam as oriffcios de laser. Entiio injcla-se policarbonato fundido nesse moldc para formar um CD com o 
mcsmo padriio de oriiTcias do disco mestre rcvestido dc vidm. Em seguidu e deposttada urna lina camada dc aluminio 
relletivo sobre o policarbonato. coberta por um vcmiz de pmteęao e. por lim. vcm unra cttqueta. As marcas no subs- 
trato de policarbonato sao denominudas depressóes i pita) e as areas entre clas sao denominadas planus ( lands ). 

Qunndo o disco e tocado. um diodo a laser de baixa potencia emite luz infravcrmclha de comprimento de onda 
de 0,78 micron sobre as dcpressóes c planos quundo estes passam peia luz. O laser ostu no ludo do policarbonato. 
portanto as depressóes estao invertidas na dircęao do laser c aparccem como saiićncias sobre uma superffeie que. 
caso contrsirio, seria piana. Como as depressóes tem uma altura de um quarto do comprimento de onda da luz de 
laser, a luz que se rcflcic dc uma depressao tem uma defasagem de meto comprimento de onda em rclaęao a luz que 
se rctlete das superiicies que a circundnm. 

O rcsullado e que as duas partes interierem uma com a outra de modo destrutivo e devolvem menos luz ao 
fotodeteclor do aparelho de reproduęao do que a luz que se rcllete de um piano. E assim que o aparelho distingue 
uma depressao de um piano. Embora talvez pareęa mais simples usar uma depressao para gravar um 0 e um piano 
para gravar um 1, e mais contiiivel usar uma transiędo dcpressao/plano ou plano/depressao para um 1 e sua ausen- 
cia para um 0: portanto. esse ć o csqucma usado. 

As depressóes e planos sao escrilas em uma tinica espiral continua que comcęa perto do orificio central e con¬ 
tinua por uma distancia de 32 mm em direęao ii bonia. A espiral faz 22.188 revoiuęóes ao redor do disco (ccrca de 
600 por mm). Se fosse dcscnrolada. teria 5,6 km de comprimento. A espiral e ilustrada na Figura 2.21. 
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Figura 2.21 

Estratura de gravaęao de um 
disco compacto ou CD-ROM. 



Para fazer com que a musica seja tocada a uma taxa uniforme, 6 preciso que as depressfles e os planos passem 
sob a luz a uma velocidade lincar constante. Por conseqiiencia, a taxa de rotaęao do CD deve ser eontinuamentc 
reduzida i medida que o eabeęote de leitura se move da parte interna para a extema do CD. Na parte interna a taxa 
de rotaęao e de 530 RPM para conseguir a taxa dc reproduęao regular de 120 cm/s; na parte mais extema tem de 
cair para 200 RPM para dar a mesma velocidade tinear no eabeęote. Um drive de velocidade linear constante d bem 
diferente dc um drive de disco magnetico, que funciona a uma velocidade angular constante. independente de onde 
o eabeęote esteja posicionado no momento em questao. Alćm disso, 530 RPM estri bera longe das 3.600 a 7.200 
RPM com a qua! gira a maioria dos discos magneticos. 

Em 1984, a Philips e a Sony pcrceberam o potencial para usar CDs como meio de armazenagem de dados de 
computadores, entao publicaram o Yellow Book (Livro Amarelo) definindo um padriio exato para o que agora 
conhecemos como CD-ROMs (disco compacto com memória somente de leitura). Para pegar carona no merca- 
do de CDs de audio, que ja era substancial na epoca, os CD-ROMs eram do mesmo tamanho lisico dos CDs de 
audio, guardavam compadbilidade mecanica e ótica com eles e eram produzidos usando as mesmas maquinas de 
moldagem por injeęao. As conseqiiencias dessa decisao forom a necessidade de motores ientos de ve!ocidade variii- 
vel mas tambem que o custo de manufatura de um CD-ROM estivesse bem abaixo de um dolar para volume mode- 
rado. 

O Yellow Book deliniu a formataęao dos dados de computador. Tambem melhorou as capacidades de correęao 
de erro do sistema. um passo essencial porque, embora os apreciadores de musica nao se importassera com perder 
um bil aqui, outro ali, os apreciadores dc computadores tendiam a ser muito exigcntcs com isso. O formato basico 
de um CD-ROM consiste em codificar cada byte em um simbolo de 14 bits. Como vimos antes, 14 bits sao sufi- 
cientes para codificar com Hamming um byte dc 8 bits e ainda sobram 2. Na verdadc, e usado um sistema de codi- 
ficaęao mais poderoso. O mapeamento 14 para 8 para leitura e realizado em hardware porconsulta de tabela. 

Do nivei seguintc para cima, um grupo de 42 sfmbolos consecutivos forma um qundro de 588 bits. Cada qua- 
dro eontćm 192 bits de dados (24 bytes). Os restanies 396 sao usados para correęao e controle de erro. Atć aqui, 
esse csquema e identico para CDs e CD-ROMs. 

O que o Yellow Book acrescenta e o agrupamento de 98 quadms em um setor de CD-ROM, como moslru a 
Figura 2.22. Cada setor de CD-ROM eomeęa com um preambuło de 16 bytes, sendo os 12 primeiros 00- 
FFFFFFFFFFFFFFFFFFFF00 (hexadecimal). para permilir que o aparclho de reproduęao rcconheęa o infcio de um 
setor de CD-ROM. Os 3 bytes seguintes contem o ntimero do setor. neccssario porque fazer busca em um CD-ROM 
com sua tinica cspiral de dados ć muito mais dificil do que cm um magnetico com suas trilhas concentricas unifor- 
mes. Para busear. o software no drive calcula aproximadumente onde ir, leva o eabeęote ate la e entao eomeęa a pro- 
curar um preambuło para vcrifiear a prccisao do scu calculo. O ultimo bit do preambuło e o modo. 

O Yellow Book define dois modos. O modo I usa o layout da Figura 2.22. com um preambuło dc 16 bytes, 
2.048 bytes de dados e um código dc correęao de erro de 288 bytes (um ctidigo de Reed-Solomon dc intercalaęao 
cruzada). O modo 2 combina os dados e campos F.CC em um campo de dados de 2.336 bytes para as aplicaęóes 
que niio precisam de correęao de erro (ou nao dispócm de tempo para exceutd-lu) cotno audio e vfdeo. Notę que, 
para ofereccr excelente conliabilidade, sao usados trćs esquemas separados dc correęao de erros: dentro dc um sfm- 
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bolo. dentro de urn qu;idro c denim de urn sctor dc CD-HOM. Erros de bil unico siio corrigidos no nfvel mais baixo LT 

erros cm rajuda eurtos sao corrigidos no nfvel de quadro e quai.squcr erros residuais sdo apanhados nu nivei de sctor tn 

O pret;o pago por essa confiabiliUade e que ela ocupa 98 ąuadros de 588 bits (7.203 bytes) para transportar urna 
unica earga util de 2.048 bytes. u ma eficićncia de apenas 28%. 

Drives de CD-ROM de unia veloeidade operam a 75 setores/s, o que dd uma taxa de dados de 153.600 bytes/s 
cm modo I e 175.200 bytes/s em modo 2. 

Drives de dupla veloeidade sdo duas vezes mais rdpido.s c assim por diante, ató a vclocidade mais alta. Um CD 
padrdo de audio tern espaęo para 74 minutos de musiea que, se usado para dados do modo l. dd uma eapaeidadc Je 
681.984.000 bytes. Esse mimem costuma ser informado eomo 650 MB porquc 1 MB e igual a 2 20 bytes (1.048.576 
bytes). e ndo l.(XX).(XX) bytes. 

Notę que mesmo um drivc de CD-ROM 32x (4.915.200 bytes/s) nao e pdrco para o drivc de disco magnćtieo 
Fast SCSI-2 a 10 MB/s. mesmo que muitos drrvcs dc CD-ROM usem a interface SCSI iiambem cxistcm drives de 
CD-ROM IDE). Quando voce sc der eonta de que o tempo de busea muitas vezcs e de vdrias ccnlenas dc milisse- 
gundos, dcve fiear elaro que os drives dc CD-ROM nao estao absolulamente na mesma catcgoria de desempenho 
dos drivcs de disco magnelico. a despcilo de sua grandę capacidade. 

Em 1986. a Philips atacou mais uma vez com o Green Kook (Livro Verde) acrcscentando rccursos gnili cos 
e a capacidade de intercalar dudio, vidco e dados no mesmo setor, uma caractcristica essencial para CD-ROMs 
multimtdin. 

A ultima peęa do quebra-cabeęas do CD-ROM ć o sistema de arquivo. Para possibilitar a utilizaędo do mesmo 
CD-ROM em diferentes computadores, era preciso ehegar a um acordo quanto aos sistemas de arqutvo cm CD- 
ROM. Para conseguir esse acordo. representantes de muitas empresas fabricantes de computadores sc reuniram em 
Lakę Tahoc nas High Sierras na fronteira Califómia-Nevada c arquitetaram um sistema de arquivo quc denomina 
ram High Sierra. Mais tardc ele evoluiu para um Padrdo Intemucional (IS 9660). 

O sistema tem tres niveis. O nivcl 1 usa nomes dc arquivo de atć 8 caractcres quc tćm a opęao de ser ou nao 
seguidos de uma extensao de atć 3 caractcrcs (a convenęao de nomeaędo de arquivos MS-DOS). Nomes de arqui- 
vos só podcm conter letras muitiscuJas. digitos e o grifo. Diretórios podem ser aninhados atd oito. mas nomes de 
diretórios ndo podcm conter extensóes. O nivel 1 rcquer que todos os arquivos sejam contiguos. o que nao ć pro¬ 
blemu pnra um meio que £ escrito apenas uma vez. Qualquer CD-ROM que obedeęa o IS 9660 nfvel I pode ser lido 
usando MS-DOS. um computador Apple, um computador Unix ou praticamentc qualquer outro computador. Os 
fabricantes de CD-ROMs considcram essa propriedade uma grandę vantagem. 

O IS 9660 ntvel 2 permile nomes de atć 32 caractcres e o nivel 3 permite arquivos ndo contiguos. As exten- 
sfies Rock Ridge (o nonie exiravngante sc deve i cidade em que Mel Brooks tilmou Bluzing Saddles [Banze no 
Oeste|) permitem nomes muito longos (para Unix). ULDs. GIDs, e enlaces simhólicos, mas os CD-ROMs quc nao 
obedeccm ao mvel I nao poderdo ser lidos em todos os computadores. 

2.3.8 CDs gravaveis 

De inicio, o equiparaento neeessario para produzir um CD-ROM mestre (ou CD de audio, por falar nisso) era 
muito euro. Mas, como sempre acontecc na indtistria de computadores, nada pcrmunccc caro por muito tempo. Em 
mcados da decada de 1990, gravadores de CD ndo maiores do que um reprodutor de CD oram um peńfćrico comum 
disponivcl na maioria das lojas de computadores. Esscs dispositivos ainda erotn diferentes dos discos magnćticos 
porque, uma vez gravados. os CD-ROMs nao podiain ser apagados. Ainda assim. eles rapidamentc cnconlraram um 
nicho como um meio dc back-up para grandes discos rigidos e lambćm permitiram quc indiv(duos ou novus empre¬ 
sas fabricassem scus próprios CD-ROMs em pcqucna cscala ou produzissem mestres para iomecer a empresas 
comerciais de reproduędo de grandes volumes de CDs. Esses drives sao conhecidos como CDRs iCD-Kecordables 
— CDs gravavcis). 

Quanlo uo aspecto lisico, os CD-Rs comeęaram com discos em branco dc policarbonato de 120 min de did- 
metro que sao como CD-ROMs. exceto por conterem um sulco de 0.6 mm de largura para guiar o laser durantc a 
esenta (gnwayao). O sulco tern um dcsvio scnoidal de (U mmm a uma frcqiiencia de cxalos 22.05 kHz para prover 
rcalimentaędo continua dc modo que a rotundo possa ser monitorada e ajustada com precisilo. caso necesstirio. 

Os primeiros CD-Rs pareciam CD-ROMs aormais, cxceto por terem a supcrffcic superior dourada em vez de 
prateada. A cor dourada vinha da ulilizaędo dc ouro vcrdadetro em vcz dc aluminio na camada rc!letiva. Difercnte 
dos CDs prateados quc continham dcprcssńcs ffsicas. nos CD-Rs as diferentes rel1etividades das depressóes e pla 
nos tćm de ser simuladas. Isso ć feilo com a adiędo de uma camada de corante entre o policarbonato e a superffcic 
relletiya. como mostra a Figura 2.23. Sao usadas duas especies de corantes: ciantna. que e verde. e ftalocianma. quc 
e amarelo-idaranjada. Os quimicos podcm discutir oiemamente sobrc qual das duas ć melhor. Esses corantes sdo 
scmclhantes aos usados em fotografia, o que explica por quc a Kodak e a Fuji sao grandes fabricantes de CD-Rs. 

Com o tempo, a camada rcł1eriva dourada łoi substituida por uma camada de aluminio. 

Em seu estagio inicial. a camada dc corante e transparente e permite que a luz do laser que a atravcssa seja 
relletida pela camada relletiya. Para gravar (escrevcr). o laser CD-R e ligado em alta potencia (8-16 mW). Quando 
o feixe atinge uma porado do corante ele o aquecc e rompe a ligaędo quimica. Essa altcrayao da estru tura molecu- 
lar cria um ponto cscuni. Ouando o CD-R e lido (a 0.5 mW).o fotodetector ve uma difcrenęa entre os pornos escu- 
ms onde o corante foi utingido e as arcas transparentes onde o disco esta intacto. Essa difercnęa e interpretada como 
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Seęao transversal de um disco 
CD-R e laser |nao esta em 
escala). Um CD-ROM tem 
estrutura semelhante. exceto 
por nao ter a camada de 
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depressóes em vez de uma 
camada refleuya._ 
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a difcrenęa cntre depressóes e planos, mesmo quando lidas por um leitor dc CD-ROM nonnal ou atć mesmo por 
um reprodutor dc CD dc audio. 

Nenhum lipo novo de CD poderia sc tirmar com orgulho sem ler um livro colorido, portanlo o CD-R lem o 
Orange Book (Livro Laranja), pubiicado em 1989. Esse documento dcfinc o CD-R e lambćm um novo formato. o 
CD-ROM XA. quc pcrmilc que os CD-Rs sejam gravados por inerementos, alguns setores hoje, outros amanha e mais 
alguns no próximo mes. Um grupo de setores consccutivos cscritos de uma só vcz ć denominado trilha dc CD-ROM. 

Uma Jas pnmeiras utilizaęócs do CD-R foi no PhotoCD da Kodak. Nessc sistema o cliente leva ao processa- 
dor de fotos um rolo dc filme exposto e scu vclho PhotoCD, e recebe dc volta o mesmo PhotoCD com novas fotos 
acrescentadas as anligas. O novo lotc, quc ć triado por digitalizaęao dos ncgalivos. e gravado no PhotoCD como 
uma trilha de CD-ROM separada. A gnwaęao incrcmental e necessaria porque os CD-Rs virgcns sao muito caros 
para se ter um novo para cada rolo dc filme. 

Contudo. a gravaęao incrcmental eria um novo problemu. Antcs do Orange Book, todos os CD-ROMs tinhum, 
no intcio, uma unita VTOC (Yolumc Table of Contents — tabela de cnnteudo de volumes). Esse esqucma nao 
funciona tom escritas incremeniais (isto e, multitrilhas). A soluęao do Orange Book e dar a cada trilha de CD-ROM 
sua própna VTOC. Os arquivos listados na VTOC podem ineluir alguns ou todos os arquivos de trilhas anteriorcs. 
Após a inscręao do CD-R no drivc. o sistema operational faz uma busca em todas as trilhas do CD-ROM para loca- 
lizar a VTOC mais rccentc, quc dii o estado utual do disco. Por ineluir alguns, mas nao todos os arquivos de trilhas 
anteriorcs na VTOC eorrcntc. ć possi'vel dar uma ilusao de quc os arquivos forum apagados. As trilhas podem ser 
agrupadas cm sessóes, o que resulta em CD-ROMs multissessóes. Reprodutorcs dc CD normais nao podem mani- 
pular CDs multissessóes. uma vez que esperam uma tinica VTOC no infcio. 

Cada trilha tem de ser escrila em uma unita operuęao continua sem interrupęao. Por tonscqlićncia. o disco 
rfgido de onde os dados estao vindo tem de ser suficientcmente nipido para cntregii-los a tempo. Se os orquivos a 
copiar estiverem distribuldos por todo o disco rfgido, os tempos de busea podem fa/.cr com que a eorrcntc de dados 
para o CD-R cesse e eausc um temido eslouro de buffer (por falla). Um estouro dc buffer resulta na produęao dc 
lindos e brilhantes — se hem que um tanio caros — aparadores de topos de bebida ou em um frisbee dourado ou 
prateado dc 120 mm dc diametro. O software cm CD-R hubilualmente ofercce a opę3o de rcunir todos os arqui- 
vos dc entrada em uma tinica imagem conlfgua de CD-ROM de 650 MB antcs dc gravar o CD-R, mas esse pro- 
eesso normalnienie dobra o tempo efetivo de escrita, rcquer 650 MB de espaęo dc disco livrc e ainda assim nao 
protegc contra discos rigidos que entram em panico c dccidcm fazer uma nova calibracao tćrmica quando licam 
muito quentes. 

O CD-R possihilita que indivlduos e emprcsas copicm CD-ROMs (e CDs de audio) com facilidade, em geral 
com a siolayilo dos dircitos autorais do cditor. VJrios esqucmas jd forom inventados para dtficullar esse lipo de piru- 
tariu c tamhem a leilura dc um CD-ROM usundo qualquer outra coisa quc nao seja o software do cditor. Um dclcs 
cnvolve gruvar todos os comprimentos de urquivox do CD-ROM como multigigabyte. frustrando quaisquer tentativas 
dc copiar os arquivos paru disco rigido com u utilmaęao de software de cópia padrdo. Os vcrdudciros comprimentos 
cstdo embutidos no software do cditor ou ocullos (possivclmcnte criplogrofados) no CD-ROM em um lugar inespera- 
do. Um outro esquema usa intencionaimente ECCs incorrctos em setores selccionados. na esperanęa de que o softwa¬ 
re de cópia de CDs corrija' os erros. O software de aplicaęao verifica os ECCs e sc recu.su a funcionar se estiverem 
cortctos. Usar lacunas nao padronizadas ontrc trilhas e outros ‘defeitos' flsicos tambćm sao possihilidades. 

2.3.9 CDs regravaveis 

Embora todos estejam acostumados com outras midius que accitam apenas uma escrila, como papel fotogni- 
fico. existe uma demanda por CD-ROMs rcgravavcis. Uma tecnologia disponfvel agora ć o CD-RW ' Cl)- 
RcWritable). que usa um meio do mesmo lamanho do CDR. Contudo. em vez dos corantes danina ou ftulociuni- 
na. o CD-RW usa uma liga de prała. Indio, antimónio e tcltirio para a camada dc gravaę3o. Essa liga tern dois estados 
cstavcis: eristaiino e amorfo, com diferentes rcfletividadcs. 
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Os drives de CD-RW usam lasers com trćs potencias difercntcs. Em alta potencia o laser fundę a liga fazen- 
do-a passar do estado cristalino dc alta rcnetividadc para o estado amorto dc baixa ret1etividade para representar 
urna depressao. Em potencia media a iiga sc fundę e volta novamente u scu estado natura] cristalino para sc tomar 
novamente um piano. Em baixa potencia, o estado do materiał e sondado (para leilura). mas ndo ocorrc nenhuma 
transiędo de fasę. 

A razao por que o CD-RW nao substituiu completamentc o CD-R e que os CD-RW cm branco sao mais caros 
do quc os CD-R cm branco. Alćm disso. para aplicaęóes de back-up dc discos rigidos. o falo dc quc. uma vez escri- 
to, o CD nao possa ser ;ipagado acidentalmente e uma grandę vanlagem. 


2.3.10 DVD 

0 formato bdsico CD/CD-ROM estd na praęa desde 1980. A tecnologia melhorou desde en ido, portanto, agora 
discos óticos dc capacidadc mais alta sao economicamcnte viaveis e ha uma grandę demanda por elcs. Hollywoixl 
adoraria substiluir as litas analógicas de vidcotcipe por discos digitais, uma vez que estes tćm qualidade mais alta. 
sao mais faceis de fabricar. duram mais. ocupam menos cspaęo nas prateleiras das locadoras dc v(deo c nuo prcei- 
sam ser rebobinados. As empresas fabricantes de eletrónicos dc consumo cstdo 3 procura de um novo produto rcvo- 
lucionario c muitos fabricantes de compuladorcs querem adicionar caracteristicas multimidia a scus softwares. 

Essa combinaęao de tecnologia e demanda por trćs industrias imensamente ricas e poderosas rcsultou no DVD, 
originalmcnte um aerdnimo para Digital Video Disk (disco de vidco digital). mas agora oliciaimcnte Digital 
VersatUe Disk (disco versatil digital) DVDs usam o mesmo desenho geral dos CDs. com discos de policarbona- 
to de 120 mm moldados por injeęao quc contćm depressoes c planos que sao iluminados por um diodo de laser c 
lidos por um fotodetector. A novidadc ć o uso dc 

X. Deprcssfics menores (0.4 micron cm vez do 0.8 mferon para CDs). 

2 . Uma espiral mais apertada (0.74 mferon entre trilhas contra 1.6 micron para CDs). 

3. Um laser vcrmelho (a 0,65 micron versus 0,78 micron para CDs). 

Juntas. essas melhorias aumentam scle vezcs a capacidadc. passando para 4.7 GB. Um drivc dc DVD Ix DVD 
funciona a 1.4 MB/s (versus 150 KB/s para CDs). Infelizmentc, a troca para lasers vcrmelhos usados em supermer- 
eados significa que os reprodutores dc DVD prccisarao de um segundo laser ou de uma exlravagantc ótiea dc eon- 
vcrsao para poder ler os CDs e CD-ROMs existentes. algo que nem todos poderao ofereccr. Alćm disso, ler CD-Rs 
e CD-RWs em um drive de DVD talvez nao seja possivel. 

Capacidadc dc 4,7 GB 6 sulicicnte? Talvez. Usando comprcssao MPEG-2 (padronizada no 1S 13346), um 
disco DVD de 4,7 GB pode conler 133 minutos dc vidco de tcla chcia com imagens em movimcnto em alta resolu- 
i;ao (720 X 480), bem como trilhas sonoras em ate oito idiomas e lcgcndas cm mais 32. Cerca de 92% dc todos os 
lilmcs quc Hollywood ja produziu tóm menos dc 133 minutos. N3o obstanie, algumas aplicuęóes. como jogos mul¬ 
timidia ou obras de referenda. talvez prccisem mais, e Hollywood gostaria de gravar varios tilmes em um mesmo 
disco, portanto quatro formatos forum delinidos: 

1. Uma face, uma camada (4.7 GB). 

2 . Uma face, duas camadas (8.5 GB). 

3. Duas faces. uma camada (9,4 GB). 

4 . Duas faces, duas camadas (17 GB). 


Por quc tantos formatos? Em uma palavra: polftica. A Philips c a Sony queriam discos de uma linica face com 
duas camadas para a vcrsao dc alta capacidade. mas a Toshiba c a Time Warner quenam discos de duas faces. com 
uma camada. A Philips e a Sony nilo imaginartun que as pessoas estariam dispostas a virar os discos. e a Time 
Warner nao acrcditava que colocar duas camadas cm uma face poderia funcionar. A soluęao de conciliaęao: todas 
as combinuęóes. mas o mercado dcterminani quais sobrcviverdo. 

A tecnologia da camada dupin tem um camada refletiva cmbaixo, coberta por uma camada semi-rcfletivn. 
Depcndendo de onde o laser for focalizado, ele se reflełe de unia camada ou da outra. A camada interior precisa de 
depressfles e planos um pouco maiores. para leilura confiavel, portanto sua capacidade e um pouco menor do quc a 
da camada superior. 

Discos dc dupla face sao tabricados colando dois discos dc uma face de 0.6 mm. Para quc todas xs versdes 
tenham a mesma espessura. um disco de uma face consiste em um disco de 0,6 mm colado a um substrato em bran¬ 
co (nu. tulvez. no futuro, contendo 133 minutos de propaganda, na esperanta dc quc as pessoas licorao curiosa* de 
saber o que existe ld dentro). A estrutura do disco dc dupla face. dupla camada ć ilustrada na Figura 2.24. 


Figura 2.24 

Disco de DVD de dupla 
lace, dupla camada. 
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O DVD foi arquitetado por um consórcio de dez fabricantes dc detrónicos de consumo. setc delcs japoncscs. 
cm cstrcita eolaboruęao com os principais cstudios de Hollywood (aiguns dos quais sao de propriedadc dos fabri- 
canlcs de elctrónicos japoneses pertencentes ao consórcio). As cmprcsas de computadores e telecomunicaęAcs nao 
forom convidadas para o piquenique e o loco resultante foi utilizar DVD para locaęio de filmes e aprescnlaęóes de 
vcndas. Por exemplo, entre as caracterfsticas padrao esta a eapacidade dc saltar cenas impróprias em tempo real (o 
quc permite que os pais transformcm um filme proibido para menores de 18 anos em um filme que possa ser visto 
por criancinhas), scis canais dc som e suportc para Pan-and-Scan. 

Essa ultima caractenstica permite que o tocador dc DVD dccida dinamicamcntc como rccortar as extrcmida 
des dircita c csqucrda dos tiimcs (cuja rclaęao largura/altura ć 3:2) para quc sc ajusletn aos tamanhos das telas de 
aparcihos de televisao cxistentes hoje (cuja rclaędo ć 4:3). 

Um outro item em que a indiistria dc computadores provavelmcnte nao teria pensado e urna incompalibilidade inten- 
cional entrc dLscos destinados aos Estados Unidos e discos destinados i Europa, e ainda outras padróes para outros con- 
tinentes. Hollywood exigiu essa •caractenstica’ porque filmes novos sao sempre lanęados antes nos Estados Unidos e 
cntfto dcspachados para a Europa quando os vfdcos comcęam a sair do circuito comercial nos Estados Unidos. A idćia 
era gurantir que as locadoras de vidco nao pudessem comprar vtdeos nos Estados Unidos muito ccdo. o quc rcduziria as 
rcceitas dc filmes novos nos cinemas da Europa. Sc Hollywood mandasse na industna dc computadores, teriamos discos 
llexfvcis dc 3.5 polcgudas nos Estados Unidos c discos flexfveis de 9 cm na Europa. 

2.3.11 Blu-Ray 

Nada fica parado no negócio de computadores. o que tambćm valc para a tecnologia de armazenagem. O DVD 
mai acabara de ser lanęado c seu sucessor ja ameaęava toma-lo obsolcto. O succssor do DVD ć o Blu-Ray (ruin 
azul), assim cham odo porquc usa um laser azul. em vez do vermelho usado por DVDs. Um laser azul tern eompri- 
mento dc onda mais curto do que o laser vermelho, o que permite um foco mais prcciso e, portanto. dcprcssócs e 
plunos menores. Discos Blu-Ray de urna face contćm cerca de 25 GB de dados; os dc dupia face contćm ccrca de 
50 GB. A laxa de dados ć aproximadamente 4.5 MB/s. o que ć bom para um disco ótico. mas ainda insigniticante 
em compuraęao com discos magneticos (cf. ATAP1-6 a 1(X) MB/s e Wide Ultra4 SCSI a 320 MB/s). Espera-sc quc. 
com o tempo, o Blu-Ray substitua CD-ROMs c DVDs, mas essa transięao ainda levartl aiguns anos. 

2.4 Entrada/Saida 

Como mencionamos no infcio destc capftulo, um sistema de computador tern trfis componentcs principais: a 
CPU, as memórias (primaria e secunddria) c os equipamentos dc E/S i entrada/saida i. ou I/O ilnput/Output) 
como impressoras. scanners e modens. Atć aqui só examintimos a CPU e as memórias. Agora ć hora dc cxaminar 
os equipamcntos dc E/S e como eles estao conectados ao resto do sistema. 

2.4.1 Barramentos 

Em termos ITsicos, a maioria dos computadores pcssoais c cstaęóes de trabalho tern esirutura similar ii mostra- 
du nu Figura 2.25. O arranjo usual e umu caixu de metal quc contćm u ma grandę płaca de circuito impresso na parte 
inferior. denominada placu-mae (ou placa-pais. para os politicamcnte corretos). A placa-mae contćm o chip da 
CPU. aiguns encaixes para os módulos DIMM e vdrios chips de suporte. Contćm tambćm um barramento ao longo 
do comprimcnto c soquetcs nos quais os conectores de bonia de placas de E/S podcm ser inscridos (o barramento 
PCI). PCs mais antigos tambćm tem um segundo barramento (o barramento ISA) para placas de E/S herdadas. mas 
os computadores modcmos nao os tem mais e csses barrnmcntos estao desaparccendo rapidamente. 

A estrutura lógica de um computador pcssoal simples de baixo preęo e mostrada na Figura 2.26. Esse compu¬ 
tador tem um linico barramento para eonectar a CPU. a memória e os equipamentos dc E/S; a maioria dos sistemas 
tem dois ou mais barramentos. Cada dispositivo de E/S consiste de duas partes: umu que contćm grandę parte da 
cłctrónicu. denominada cnntrolador. c outra quc contćm o disposmvo dc E/S em si. tai como um dnvc de disco. O 
controlador normalmcnlc esta contido cm um płaca quc ć ligada a um encaixc livrc. cxccto os contmladorcs que 
nao ssio opcionais (como o icclado). que as vezes estao localizados na placa-mac. Mcsmo que o visor (monitor) nilu 
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Estrutura lógica de um 
computador pessoal simnles. 



Barramento 


seja opcional, o eontrolador de vtdeo as vezes esta localizado om urna płaca de encaixe (plug-in) para permitir quc 
o usuario escolha entrc plaeas com t)u sem aceloradores graficos, menujria exlra c assim por diante. O eontrolador 
sc conccta com sou disposiuvo por um cabo ligado jo conector na parte dc trds da caixu. 

A funęao de um eontrolador e controlar seu dispositivo dc E/S e munipular para ele o accsso ao barramento. 
Quando um programa quer dados do disco, por excmplo, ele envia um comando ao eontrolador de disco, que ent3o 
cmile comandos de busca e outros comandos para o drive. Quando a trilha e o setor adcquados forem localizados, 
o drive cotneęa a entregar dados ao eontrolador como urna corrente serial de bits. E funęao do conuolador dividir 
a corrente de bits cm unidades e escrever cada urna delas na memória, a medida que esteja montada. Urna unidade 
tfpica e composta de uma ou mais palavras. 

Quando um eontrolador le ou escreve dados de ou para a memória sem intcrvcnęao da CPU, diz-se quc ele 
estd executando acesso direto a memória (Direct Memory Aceess), mais conhecido por seu aerónimo DMA. 
Concluida a transferencia, o eontrolador normalmente causa uma interrupęao, foręando a CPU a suspender ime- 
diatamente a execuęao de seu programa corrente e eomeęar a executar um procedimento especial denominado roti- 
na de interrupęao para verificar erros. executar qualquer aęao especial necessaria e tnformar ao sistema operacio- 
nal que a E/S agora estd conclufda. Quando a rodna de interrupęao conclui sua tarefa. a CPU continua com o 
programa que foi suspenso quando ocorreu a interrupęao. 

O barramento nao e usado soraentc pelos controladores de E/S, mas tambem pela CPU para buscar instruęóes 
e dados. O que acontece se a CPU e um eontrolador de E/S quiserem usar o barramento ao mesmo tempo? A res- 
posta e que um chip denominado arbitro de barramento dccide o que acontece em principio. Em gcral, e dada a 
preferencja aos dispositivos de E/S sobre a CPU, porque discos e outros disposidvos que estao em movimento nao 
podem ser inlerrompidos. e obriga-los a esperar resultaria era perda de dados. Quando nao ha nenhuma E/S em 
curso, a CPU pode ficar com todos os ciclos do barramento para.si própriu para rcfercnciar memória. Contudo, 
quando algum dispositivo de E/S tambem estivcr executando, ele rcquisitara e leni acesso ao barramento sempre 
que precisar. Esse processo e denominado roubo de ciclo c reduz a velocidade do computador. 

Esse projeto funcionou bem para os primeiros computadores pessoais, ja quc todos os componentcs estavam 
em certo equilibno. Contudo, a medida que CPUs, memórias e dispositivos de E/S ticavam mais rapidos, surgiu 
um problcma: o barramento nao dava mais conta da carga apresentada. Em um sistema fcchado, tal como uma 
estaęao dc trabalho de engenharia, a soluęao foi projetar um novo barramento mais rapido para o próximo mode- 
lo. Como ningućm nunca passava dispositivos de E/S de um tnodelo antigo para um novo, essa abordagem fun¬ 
cionou bem. 

Todavia. no mundo do PC. quem passava para uma CPU mais potente muitas vezes queria levar sua impres- 
sora. scanner e modem para o novo sistema. Alem disso, tinha-se desenvolvido uma imensa industria destinada a 
fomecer uma ampla faixa de dispositivos de E/S para o barramento do IBM PC, e essa industria n3o estava nem um 
poueo interessada em perder todo o seu investimento e eomeęar de novo. A IBM aprendeu isso do modo mais difi- 
eil quando lanęou o sucessor do IBM PC, a linha PS/2. O PS/2 tinha um barramento novu e mais rapido, mas a 
maiona dos fabricantes de clones continuava a usar o antigo barramento do PC, agora denominado barramento ISA 
(lndustry Standard Architecture). 

A maioria dos fabricantes dc discos e dispositivos de E/S conlinuou a fabricar controladores para ele. e a IBM 
se viu enfrentando a pcculiar situaęao de ser a unica fabneante de PCs que nao eram mais compau'veis com o PC 
da IBM. Com o tempo, a empresa foi loręada a suportar o barramento ISA. Como um comentdrio a parte, favor 
notar que ISA quer dizer Inslruction Set Architecture (arquitetura de conjunto de instruęóes) no contcxto de nfveis 
dc maquina, ao passo que no contcxto de barramentos qucr dizer lndustry Standard Architecture (arquitctura padrao 
da indtistria). 

Nao obstante. a despeito da pressao do mercado para que nada mudasse. o antigo barramento era mesmo muito 
lento, portunto era prcciso fazer algo. Essa situaęao lcvou outras empresas a descnvolver mtiquinas com multiplos 
barramentos, um dos quuis era o antigo barramento ISA, ou seu sucessor compatwel, o barramento EISA 
(Extcnded ISA — ISA estendido). Agora, o mais popular deles e o barramento PCI (Peripheral Compunent 
Intcrcnnnect). Esse barramento foi projetado pela Intel, mas a empresa decidiu pussar todas as patentes para domi¬ 
nie publice a firn dc incentivar loda a industria (incluindo seus conconrentes) a adola-lo. 
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PC moderno tipico com um 
banamento PCI e um 
banamento ISA. 0 modem e a 
płaca de som sao <tlspositivos 
ISA; o controlador SCSI e um 
dispositiyo PCI._ 


O barramento PCI pode ser usado em muita.s configuraęocs. mas a Figura 2.27 ilustra u ma eonfigurnędo tfpi- 
ca. Ncsse caso, a CPU sc comunica com um controlador dc mcmória atraves dc urna eonexao dcdicada dc ulta 
vcIocidadc. O controlador se comunica dirctaincntc com a memória c com o barramcnto PCI. portanto o trdfcgo 
CPU-memória nao passa pelo barramento PCI. Contudo. pcrifóricos de alta largura de banda (isto 6, alias taxas de 
dados) podem ser concctados dirctamcntc ao barramcnto PCI. Alem do mais, aqui o barramento PCI tern urna 
pontc para o barramento ISA. dc modo que controladorcs ISA c seus dispoxitivos ainda podem ser usados. embo- 
ra. como jd mcncionamos. o burramento ISA estd em proccsso dc extint;io. Urna muquina com csse projeto nor- 
malmente contcria trćs ou qualro conectorcs PCI vazios c um ou dois conectorcs ISA. para que o cliente possa 
conectar os antigos cartóes de E/S ISA. cm gerel para dispositivos lentos. e novos cartócs de E/S PCI — normal- 
mente para dispositivos rapidos). 

Ha muitos tipos dc dispositivos dc E/S disponfveis hoje. A seguir, discutircmos alguns dos mais comuns. 

2.4.2 Terminais 

Terminais de computador consistcm em duas partes: um teclado e um monitor. No mundo dos mainframes. 
essas partes costumam ser integradas em um unico dispositivo ligado ao computador principal por urna linha serial 
ou por urna linha telcfflnica. Nos setores de rcscrva de passagens aercas e bancario e em outros setores quc usam 
mainframes, csses dispositivos ainda tern ampla utilizaędo. No mundo dos computadores pessoais. o teclado e o 
monitor sdo dispositivos independentes. Qualqucr que seja o caso. u (ccnologia das duas partes ć a mesma. 

Teclados 

Ha urna grandc varicdadc de teclados. O IBM PC original vinha com um teclado munido dc um contato meca- 
nico sob cudu teclu, quc dava retomo talii c cmitia um cliquc quundo a tecla era apertadu corretamcnte. Hojc, os 
teclados mais buratos tćm teclas quc fazem apenas contato mecdnico quando acionados. Os melhores tćm urna lami¬ 
na dc materiał clastomćrico — espćcic dc borracha — entre as teclas e a płaca dc circuito impresso que estd por 
buixo. Sob cuda teclu hd urna pcqucna salićncia que ccdc quando pressionada corretamcnte. Um pontinho de mate- 
riul condutor dentro da salićncia fccha o circuito. Alguns teclados tćm um magneto sob cada tecla quc passa por 
urna bobina quundo pressionudo, induzindo assim a'uma correntc quc pode ser detectada. Tambćm ha vdrios outros 
mćtodos em uso. tnecanicos c cletromugnćticos. 

Em computadores pessoais. quando urna leela ć pressionada. urna interrupęao ć gerada e a rotina dc interrup- 
ęócs do teclado — um software que faz parte do sistema opcracional e acionada. A rotina dc intcrrupęóes Ić um 
registrador dc hardware dentro do controlador dc teclado para pegur o mimero da tecla 11 a 102) que acabou de ser 
pressionada. Quando a tecla ć sol ta. ocorre urna segunda interrupęao. Assim. sc um usuario pressionar a tecla 
SHIFT, e em seguida pressionar e soltar a tecla M, e depois soltar a tecla SHIFT, o sistema opcracional pode ver 
que o usudrio quer um ‘M’. e nao um ‘tn’. O tratamento de seqiićncias de varias teclas envolvendo SHIFT. CTRL 
e ALT ć feito intciramentc em software (incluindo a abominavel seqilencia dc teclas CTRL-ALT-DEL quc e usada 
para rciniciar todos os IBM PCs e seus clonesj. 

Monitores CRT 

Um monitor e urna caixa que contem um CRT (Cathodc Ray Tubę — tubo de raios catódicos). O CRT con- 
tem um canhdo que pode emitir um fcixe de clćtrons contra urna tela fosforcscente prtwima ii parte frontal do tubo, 
como mostra a Figura 2.28(a). Durante a varredura horizonial o fcłxc varrc a tela em aproximadamente 50 jrs. tra- 
cando nela urna linha quase horizonial. Em seguida cxecuta utną varrcdura horizonial cle retomo (um traęo horizon¬ 
ial) para voltar atć a cxtremidade csquerdu e intciur a próxima varrcdura. Um dispositivo como esse. que produz 
urna imagem linha por linha. ć denominado disposiltvo dc varredun» i raster scan ). 









Figura 2.28 
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A varredura honzontal e controlada por uma tensao eletrica lineamientc crescentc aplicada as plucas dc dcfle- 
xao horizontais colocadas a esquerda c i direita do canhao dc elćtrons. O movimento vcnical e controlado por uma 
tensao eletrica quc tambem crescc linearmcntc. porem muiio mais Icntamcntc. aplicada a placas dc dcflcxao vcrti- 
cais posicionudas acima c abaixo do canhao. Após um niimcro aproximado dc varreduras, cnire 400 e 1.000, as ten- 
sdes cletricas sobrc as placas dc dcllesao verticais c honzontais sao rapidamente invcnidas ao mesmo tempo para 
posicionar o fcixc de volta no canto csquerdo superior. Uma imagem dc tcla intcira normalmcntc ć repintada entre 
30 c 60 vcz.es por segundo. Os movimcntos dos feixes sio mostrados na Figura 2.28(b). Embora tenhamos dcscri- 
to CRTs quc usam campos cietricos para varrer o feixe pcia tela. muitos modclos isam campos magnelicos em vez 
dc clćiricos, cm especial em monitores dc primeira linha. 

Para produzir um padrao dc pontos na tela, hd uma gradc no interior do CRT. Quando uma tensao positiva e 
aplicada a gradc. os elćtrons sao ucelerados, fazendo com que o feixe atinja a tela e a 1’aęa brilhar por um curto espa- 
ęo de tempo. Quando e usada urna tensao negariva. os elćtrons sao repelidos, portanto nao passam peta gradc e a 
tela nao brilha. Assim, a tensao aplicada d grade faz com quc o padrao dc bils correspondente apareęa na tela. Esse 
mecanismo permitc que um sinal eletrico binario seja convertido em exposięao visual consistindo em pontos bri- 
Ihantes c pontos escuros. 


Monltores de tela piana 


CRTs sao muito volumosos e pesados ptira serem usados em notebooks. portanto e preciso uma tecnologia 
completamentc diferente para suas tclas. A mais comum e a tecnologia de LCD (Liquid Crystal Display — moni¬ 
tor de cristal lfquido). E uma tecnologia dc alta complexidude. tern muitas variacocs c esta mudando rapidamen- 
tc. portanto essa descrięao sera necessariamente brcve e muito simplifteada. 

Cristais lfquidos sao moleculas organicas viscosas que flucm como um lfquido, mas tambćm tern estrutura 
cspacial como um cristal. Foram descobertos por um botanico austriaco (Rheinitzer) em 1888 e apiicados pela pri¬ 
meira vez em visores (por exemplo, calculadoras e relógios) na decada de 1960. Quando todtis as molćculas estao 
alinhadas na mesma direęao, as propnedades óticas do cristal dependem da direęao e polarizaęao ila luz incidente. 
Usando um campo eletrico aplicado, o alinhameiuo rnoleeular e, por conseguinte, as propriedades óticas podem ser 
mudadas. Em particular, fazendo passar luz. atraves de um cristal lfquido, a intensidade da luz que sai dele pode ser 
controlada por meios clćtricos. Essa proprieiiade pode ser cxplorada para construir visores de tela piana. 

Uma tcla dc monitor dc LCD consistc cm duas placas dc vidro paralclas entre as quais ha um volume sclado 
quc contem um cristal l(quido. Eletrodos tronsparentes sio ligados a ambas as placas. Um luz atrus da płaca trasci- 
ra. natural ou artificial, ilutnina a tela por tras. Os eletrodos transparentes ligados a cada płaca sao usados para criar 
campos elćtricos no cristal Uquido. Difcrcntcs partes da tela reccbe;n tcnsócs eletricas dilercnlcs paru controlar a 
imugem aprcsentuda. Colados as partes frontal e traseira da tela ha polaróidcs porque a tecnologia de vtsores requer 
a utilizaęao dc luz polarizada. A montagcin geral ć mustradu na Figura 2.29(aj. 

Cristal liqulda 
Płaca de vidro traseira 
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Embora muitos tipos de visores de LCD cstcjam em uso. agora vamos eonsiderar um tipo particular dc visor, 
o TN Twisted Ncmatic — nematico torcido), como exeinplo. Ncssc visor, a płaca trascira contem mimisculos 
sulcos horizontais, c a płaca frontal, mimisculos sulcos verticais, como ilustrado na Figura 2.29(b). Na ausencia de 
um campo elelrico, as molćculas do LCD tendem a se alinhar com os sulcos. Urna vez que os alinhamentos frontal 
e traseiro estao a 90 graus um cm rclaęao ao outro. as molćculas — e. portanto. a csłrutura cristalina — ficam tor- 
cidas entre as placas trascira e frontal. 

Na parte de mis do visor ha um polaróidc horizontal quc pcrmiic somente a passagem de luz pnlarizada hori- 
zontalmente. Na parte da Irenie do visor ha um polaróide vertical quc permite somente a passagem de luz polariza- 
da verticalmcnte. Se niio houvesse nenhum liquido presente entre as placas. a luz polarizada horizontalmcnte que 
entrasse pelo polaróide trasciro seria hloqueada pelo polaróide frontal, produzindo uma tela uniformcmcme negra. 

Contudo. a esirutura cristalina torcida das molćculas do LCD guia a luz na passagem e gira sua polurizaęuo 
fazendo com quc elu saia na vcrtical. Portanto, na ausćncia dc um campo eletrico, a tela LCD e unilórmemente bri- 
lhante. Aplicando uma tensao cletrica cm partes sclecionadas da płaca a estrutura torcida pode ser destruida blo- 
queando a luz nesses locais. 

Ha dois esquemas quc podcm ser usados para aplicar a tensao cletrica. Em um monitor dc matriz passiva (de 
baixo custo), ambos os clctrodos contem fios paralelos. Em um visor de 640 X 480, por cxcmplo. o elctrodo trasci¬ 
ro poderia ter 640 fios verticais e o frontal poderia ter 480 horizontais. Aplicando uma tensao cletrica a um dos fios 
vcrticais c entao fazendo pulsar um dos horizontais, u tensao em uma posięao dc pi xcl sclccionada pode ser mudu- 
da. fazendo com que ele escureęa por um curto espuęo dc tempo. Repetindo esse pulso para o próximo pixel c entiio 
para o seguintc. pode sc pintar uma linha cscura de vam;dura, analogu ao modo de funcionamento dc um CRT. 
Normalmentc a tela inteira e pintada 60 vczes por segundo para enganar o olho e fazć-lo pensar quc ali ha uma ima¬ 
gom constantc — mais uma vez, o mesmo que faz um CRT. 

O outro csqucma de ampla utilizaędo ć o monitor dc matriz ativu. E mais caro, mas produz mclhor imugem. 
Em vez de ter apenas dois conjunios de fios perpendicularcs. ele tern um minusculo elemento comutador em cada 
posięao de pixcl em um dos eletrodos. Dcsligando e ligando esses eleinentos podc-sc criar um padrao dc tensao ele- 
trica arhitrario na tela. o quc permite um padrao de bits tambem arhitrario. Os elcmcntos comutadores sao denomi- 
nados transistores dc pdicula fina (TFT — thin film trunsistorsi e os monitores de tela piana quc os utilizam 
costumam ser denominados monitores (visorcs) TFT. Agora, a maioria dos notebooks e monitores de tela piana 
independentes para computadores de mesa usam a tccnologia TFT. 

Ale aqui dcscrevemos como funciona um monitor monocronuitico. Basta dizer quc monitores coloridos usam 
os mesmos principios gerais dos monitores monocromaticos. mas os dctalhes sao muito mais complicados. Filtros 
ólicos sao usados para separar u luz branca em componentes vermclha, verde c azul em cada posięao de pixel, dc 
modo que esses possam ser exibidos independentemente. Toda cor pode ser obtida por uma supcrposięao dessas tres 
cores primurias. 

RAM de vldeo 

Ambos os monitores, CRTs c TFT. sao rcnovados dc 60 a 100 vezes por segundo por uma memória espccial. deno- 
minada RAM de viden (memória de acesso aleatório de vfdeo), embutida na płaca de controle do monitor. Essa memó¬ 
ria tem um ou mais mapas dc bits quc representam a tela. Em uma tela com. por exemplo. 1.600 X 1.200 elementos dc 
imagem. denominados pixels. uma RAM de vfdco contcria 1.600 X 1.200 valores, um para cada pixcl. Na verdade, 
poderia conter muitos desses mapas de bits para permitir a passagem rapida de uma imagem dc tela para oulru. 

Em um monitor de primcira linha. cada pixcl seria rcpresentado como um valor RGB ( redJgreen/blue ) de tres 
bytes. um para cada intensidade das componentes vcrmelha, vcrdc e azul da cor do pixcl. Pelas leis da fisica, sabe 
se quc qualqucr cor pode ser obtida por uma supcrposięao linear dc luzes vcrmclha. verdc c azul. 

Uma RAM de video com 1.600 X 1.200 pixels a 3 bylcs/pixcls requer qua.se 5,5 MB para armuzenar a imu¬ 
gem e uma boa quantidade de tempo de CPU pora fazer qualquer coisa com ela. Por essa razao, alguns computado- 
res adolum uma sołuędo dc coneiliaęao usando um numero de 8 bits para indiear a cor desejada. F.ntao. esse ndme- 
ro ć usado como um fndice paru uma tabela de hardware denominada paleta dc cores. quc contćm 256 entradas. 
cada uma com um valor RGB dc 24 bits. Esse pmjcto. denominado cor indcxada. reduz em dois tcręos o tumanho 
da memória da memória da RAM de vidco. mas permite somente 156 cores na tela ao mesmo tempo. Normalnienie, 
cada junelu na tela tępi scu próprio mapeamento. Porem, com apenas uma paleta dc cores em hardware. quando ha 
varius janelas prcsenlcs na tela. muitas vczcs apenas a junelu correntc upresentu suus cores corrctamcntc. 

Monitores dc viden de bits mapeados requercm grandę quantidade de largura de banda. Apresentar mullimf- 
diu em tela chcia. com lodus as cores cm um monitor dc 1.600 X 1.2(8). rcqucr copiar 5,5 MB de dados para a RAM 
de vfdeo para cudu quudro. Quundo o vfdco e dc movimcnto total. e preciso uma taxa de no mfnimo 25 quadros por 
segundo. o que resulta uma taxa totaJ de dados de 137.5 MB/s. Essa carga e muito mais do que o barramcnlo (E)ISA 
pode mampular. ate mais do quc o barramcnlo PCI original podia manipular (127.2 MB/sj. Claro que imagens 
menorcs rcquerem menos largura dc banda, mus largura de banda ainda e uma questiio importante. 

Para permitir maior largura dc bunda da CPU para RAM de vidco, a partir do Pentium II a Intel acrcscentou 
suportc para um novo barramento para a RAM de vfdeo, o barramento AGP (Aecelerated (Graphics Port — 
porta grafitu acelcrada). que pode transferir .12 bits a uma tuxa dc 66 MHz, ou seja. para uma laxa dc dados de 
252 MB/s. Versóes subseqtientcs executavam a 2x. 4x e atć 8x para providenciar largura de banda suficientc para 
reeursos gnificos dc altu intcraęao sem sobrccarregar o barramento PCI principal. 
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2.4.3 Mouses 

A medida que 0 tempo passa, os computadores estao sendo usados por pessoas menos versadas sobre o modo 
de funcionamento dos computadores. Computadores da geraędo ENIAC eram usados somente pelas pessoas aue os 
construiram. Na dćcada de 1050. computadores eram usados somente por programadores prolissionais aitameme 
treinados. Agora, computadores sdo amplamente usados por pessoas que precisara fazer algum trabaiho c nao sabem 
muito (ou nem querem saber) sobie como funcionam os computadores ou como sao pmgramados. 

Anugamente. a maioria dos computadores tinha intcrtaces de linha de comando, para as quais os usuiirios digi- 
tavam comandos. Urna vez quc quem nao e especialista quasc semprc ucha que intcrtaces dc linha de comando nao 
sao amigaveis ao usudrio, se nSo ubsoiutamente hostis. muitos fabricantcs de computadores desenvolvcram interfa- 
ccs de apontar e clicar. tais como as Macintosh c Windows. Usar esse niodelo pressupće quc haja urn modo de apon- 
tar aigo na tcla. O mero mais comum dc permitir quc usuarios apontem algo na tcia ć urn muu.se. 

Urn mou.se ć urn caixinha dc plasuco quc tica sobre a mesa ao lado do tcciado. Quando cla e movimentada 
sobre u mesa, um pcqucno pomciro tumbom se movimenta na tcia. permilindo que os usuarios apontem itens. O 
mouse tem urna. duas ou tres tcclas na parte dc cima. quc possibilitam os usuarios a selccionar itens aprcsentados 
cm menus. Muna polemica ja se levuntou por causa de diseussOcs sobre o mimero dc tcclas que um mouse devc ter. 
Usuarios ingenuos preferem urna só (ć mais dificil dc apertar a tecla errada sc houver apenus urna), mas os solisti- 
cados gostam do poder confcrido por vdrias teclas para fazer coisas imaginativas. 

Tres tipos de mouses forum produzidos: mouses niecdnicos, mouses óticos e mouses ótko-rnecdnicos. Os pri- 
meiros tinharn duas rodinhas dc borrucha para fora da parte inferior do corpo cum cixos perpendiculares entre si. 
Quando o mouse ora movimentado cm paralelo com scu eixo principal. urna roda girava. Quando era movimenta- 
do ao longo da perpendicular de seu eixo principal. a outra roda girava. Cada rodinha comandava um resistor varia- 
vel ou potenciómetro. Mcdindo as alteraęóes na resistóncia era possivel ver como cada roda tinha gsrado e assim 
calcular a distancia que o mouse tinha percorrido em cada dircęao. Ha poucos anos esse projeto foi substimfdo cm 
grandę parte por um outro no qual. cm vcz de rodinhas. era usada urna pcquena estera projetada um pouco para fora 
do fundo do inousc. Ele e mostrado na Figura 2.30. 

O segundo lipo dc mouse e o ótico. Esse lipo nao tern rodinhas nem esferas. Em vez dclas. tern um LED (Light 
Emitting Diodę — diodo emlssor de luz) e um fotodetector nu parte de baixo. 0 mouse dtieo e usado sobre urna 
almofadu plastica espccial quc contem urna gradc retangular de linhas espaęadas muito próximas umas das outras. 
Quando o mouse se movimenta sobre a gradc, o fotodetector percebe os cruzamentos dc linhas pelas alteraęóes na 
quuntidade de luz rcfletida pelo LED. A clctrónica dentro do mouse conta o numero de linhas dc grade cruzadas em 
cada direęao. 

O tcrcciro u po dc mouse ć ótico-mecdnico, tern urna esfera quc gira dois cixos alinhados a 90 graus em reia- 
ędo um ao outro. Os oixos estao concctados a ilecodillcadorcs com lcndas que permitem a passagem da luz. Quando 
o inousc se movimenta. os eixos girom e pulsos de luz atingem os detectorcs semprc-que aparccc urna fenda entre 
um LF.n e scu detector. O numero de pulsos detcctados e proporeional a quantidade dc movimcnto. 

Embora mouses possam ser montados de vdrias muneiras. um arranjo comum e cnvior urna seqiiencia de trćs 

I bytes uo computador toda vcz que o mouse se movunenlu a urna distancia minima (por cxcmplo, 0,01 poiegada), as 
vezes denominuda mickey. Normalmentc esses caracteres vem em u ma linlia serial, um bit por vcz. O primeiro byte 
contćm um inteiro com sinul que informa quantas unidades o mouse se moveu na direęao x dcsde a ultima vez. O 
segundo byte dd a mesma informaęao para o movimento na dircęiio y. O tcrcciro byte contćm o estado corrente das 

! teclas do mouse. As vezes sdo usados dois bytes para cada coordcnada. 

No computador. um software dc baixo nivel aceita essas informaęóes a medida que chegam e converte os 
movimcntos re1advos enviados pelo mouse cm urna posięao absolula. Em seguida apresenta na teia urna seta cor- 
respondente ii posięao ondc o mouse esui. Quando a seta indicar o item adequado. o usudrio clica a iccia do mouse 
e cniao o computador pode interpretar qual item foi sclecionado por saber ondc a seta estd posicionada na tcla. 
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2.4.4 Impressoras 

Após o usuiirio preparar urn documento ou buscar uma ptigina na Web. muitas vc/.es qucr imprimir scu traba- 
Iho, portamo tudos os computadores oodem ser cquipados eom uma impressora. Ncsta seęao descreveremos alguns 
dos tipos mais comuns de impressoras monocromaticas (isto e, cm prcto-e-branco) e impressoras cm cores. 

Impressoras monocromaticas 

O cipo mais barato de impressora e a impressora matricial. na quaJ urn cabcęote de impressao que contćm 
entre 7 e 24 agulhus ativadas eletromagneticamente varre eada linha de impressao. Impressoras mais baratas tern 
sete agulhas para imprimir uma linha de. por excmplo, 80 caractercs em uma matriz 5 X 7. Na verdadc, a linha 
imprcssa consiste em 7 linhas horizontais. cada uma composta dc 5 X 80 = 400 pontos. Cada ponto pode ser 
impresso ou niio, dependendo dos caracteres que serao imprcssos. A Figura 2.31 (a) ilustra a letra ‘A’ imprcssa em 
uma matriz 5x7. 

A qualidadc da impressao pode ser mcihorjda por duas tćcnicas: usando mais agulhas ou sobrepondo efreu- 
los. A Figura 2.31 (hi mostru urn ‘A’ impresso com 24 agulhas quc produzem eireulos sobrepostos. Em geral. para 
produzir pontos sobrepostos sao neccssarias varias passagens sobrc cada linha dc varrcdura. portamo a melhoria da 
qualidade estii ligada a taxas de impressao mais lentas. A maioria das impressoras matriciais pode funcionar em 
diversos modos, ofereccndo diferentes compromissos entre qualidadc c velocidade de impressao. 

Impressoras matriciais sao baratas. em especial no que se rcfere a muteriais de consumo. e muito confidvcis. 
porem sao lentas, ruidosas c dc ma qualidade grtifiea. Nos sistemas atuais elas sao usadas de irSs modos principais. 
Em primeiro lugar sao popularcs para imprimir formularios grandes (> 30 era) de composięSo grdfica prcdefinida. 
Em segundo lugar. sao boos para imprimir em tiras dc papel dc pequenas dimcnsócs, tais como recibos de caixas 
registradoras, registros de transaęóes em caixas clctrónicos ou eom cartńes de ercdito ou eartóes de embarquc dc 
linhas aereas. Em tcrceiro lugar, em geral elas sao a tecnoiogia mais barata para imprimir formuldrios continuos 
com vdrios campos e varias cópias em papel-carbono. 

As impressoras de jato de tinta sao as favoritas para uso domeslieo de baixo preęo. O cabeęotc de impres- 
sdo móvel, quc contćm um cartucho de tinta movimenta-se na horizontal sobre o papel por meio de uma correia 
enquanto a tinta e borrifada por seus mintisculos bicos injctorcs. O volumc de carga das gotfeulas de tinta ć de I 
picolitro, o que significa que 100 milhóes dclas caberiam muito hem em um unico pingo d’agua. 

Hd duas variedadcs de impressoras a jam de tinta: as piezoeletricas (usadas pcla Epson) e as termicas (usadas 
pcla Canon. HP e Lexmark). As piezoeletricas tern um tipo especial de eristal ao lado da camera de tinta. Quando 
uma tensao eletrica <5 aplicada ao eristal cle se deforma ligciramcntc. foręando uma goticula de tinta a sair pclo bico 
injetor. Quanto mais alta a tensao elćlrica, maior a goticula de linia quc sai pelo injctor. o quc permite ao software 
controlar o tamanho da goticula. 

■ Impressoras termicas a jato de tinta. tambćm denominadas impressoras a jato de bolluis, contćm um mintis- 
eulo resistor denlro de eada bico injetor. Quando uma tcnsdo elćtriea e aplicada ao resistor, cle se aquece eom muita 
rapidez, clcvando instanlaneamente a temperatura da tinta que estd cm eontato eom cle ató o ponto de cbuliędo, atć 
quc u tinta se vaporize e formę uma bolha de gds. A bolha de gis ocupa maior volume do que a tinta que a criou, 
produzindo pressdo no bico injetor. O unico lugar para onde a linia pode ir ć para fora do bico, sobre o papel. Entiio 
o injetor ć resfriado c o vdcuo resuilante aspira outra gotfeula de tinta do reservatório. A velocidade da impressora 
e limitada pcla taxa de repetięao do ciclo ebuliędo/resfriamento. As gotfeulas sao todas do mesmo tamanho, mas em 
geral menores do que as produzidas pelas impressoras piczoclćtricas. 

A rcsoluęao tipica de impressoras a jato de tinta e de no minimo 1.200 dpi (dots per inch — pontos por pole- 
gada) e as de primeira linha chegam a 4.800 dpi. Sao baratas. silenciosas e de boa qualidade, embora tambćm sejam 
lentas e os cartuchos de tinta sejam caros. Quando a melhor das impressoras a jato dc tinta de primeira linha e usada 
para imprimir uma fotografia de alta rcsoluęao sobre um papel fotograf!co com revesłimento especial. os rcsuitados 
sao indistinguiveis dos de uma fotografia eonvcncional. ate mesmo para o tamanho 8 X 10. 



Figura 2.32 

runcionamento de urna 
impressoia a laser 



Provavclmentc o desenvolvimento mais interessantc da impressao desde que Johann Gutenberg inventou o tipo 
móvcl no sćculo XV e a impressora a laser. Esse dispositivo combina uma imagem de alta qualidade, exceiente 
tlexibilidade, grando vclocidade c custo moderado cm um dnico peritćrico. Impressoras a laser usam quaso a mes ma 
tccnologia das maquinas fotocopiadoras. Na yerdade, muitas empresas fabricam equipamontos que combinam cópia 
c impressito — e, is ve/.es, tambem fax. 

A tecnoiogia bdsica e ilustrada na Figura 2.32. O coraęao da impressora e um tambor rolativo de prceisao. ou 
uma correia, em alguns sistemas de primeira linha. No infeio de eada ciclo de piigina ele reeebe uma earga de ate 
cerca de 1.0<)0 volts e e revestido com um materiał fotosscnsfvcl. Enlao a luz de um laser passa ao longo do eom- 
primento do tambor, como se fosse o feixc de oletrons dc um CRT, exceto que, cm vez de provocar u deflcxao hori- 
/ontai usando uma len siło elćtrica, e usado um espelho octogonal rotativo para varrer o eomprimento do tambor. O 
feixe dc luz ć modulado para produzir um padriio dc pontos cscuros e claros. Os pontos atingidos pelo feixc per- 
dem sua carga clćtriea. 

Após pintar uma linha de pontos, o tambor gira uma fraęao dc um grau para permitir que a próxima linha seja 
pintada. Com o decorrer da rotaęao. a primeira linha de pontos chcga ao toner, um rescrvatório quc contćm um pó 
negro clctroestaticamente sensivel. O toner ć atraido por aqucles pontos que ainda estao carregados, formundo uma 
imagem visual daquela linha. Um pouco mais adiunte na trajetória de transporte, o tambor revestido de toner ć prcs- 
sionado contra o papel, uunsferindo o pó prcto para cle. Em seguida, o papci passa por rolamentos aquccidos quc 
fundem pcrmanentcmcntc o toner i superftcie do papci, lixando a imagem. Em um ponto mais adiantc dc sua rota- 
V’3o. o tambor e descarrcgado e raspado para limpar qualquer residuo de toner, preparando-o para reccber nova carga 
clćtriea e rcvestimento para imprimir a próxima piigina. 

Nem ć preciso dizer que esse processo ć uma combinaęao cxtremamcnte complexa dc ffsica, qufmica, enge- 
nharia mecanica c engenharia ótica. Ainda assim ha varios tabricantes no mercado quc oferccem conjuntos comple- 
xos denominados mecanismo de impressao. Fabricantes dc impressoras a laser combinam os mecanismos de 
impressao com sua própria eletrónica c seu software próprio para montar uma impressora completa. A parte clelró- 
nica consisic cm uma CPU rapida embutida junto com megabytes dc memória para conter um mapa dc bits de uma 
piigina inteira e numerosas fontes. algumas delas embutidas, algumas disponfvcis para carga. 

Grandę parte das impressoras accita comandos quc dcscrcvcm as paginas a serem impressas. ao contrario de 
simplcsmentc accilar mapas dc bits prepurados pcla CPU principal. Esscs comandos sao dados cm linguagens como 
a PCL da HP e a PostScript da Adobe. 

Impressoras u laser de 600 dpi c mais podem cxccutar um trahalho ra/odvel na impressao dc fot ograli as om 
prelo-e-branco. mas a tccnologia e mais contplicada do que pode parccer ii primeira vista. Considcre uma fotogra¬ 
fia digitalizada cm 600 dpi que deve ser impressa por uma impressora de 600 dpi. A imagem digitalizada contćm 
6(X) x 600 pixels/polegada. cada um consistindo em um valor dc cinza que varia dc 0 (branco) a 255 (pieto). A 
impressora lambćm pode imprimir 600 dpi. mas cada pixe! impresso ć ou prcto (toner presente) ou branco (nenhum 
toner presente). Valorcs cinza n0o podem ser impressos. 

A soluęao habituaJ para imprimir imagens com valorcs dc cinza e usar a tćcnica do ineio-tom (retfeula), a 
mesma usada para impnmir cartazes comerciais. Valorcs dc cinza na taixa de 0 a 255 sao representados dividindo 
cssa faixa em 37 zonas. Valores de 0 a 6 estao na zona 0. valores de 7 a 13 estao na zona I e assim por diantc (a 
zona 36 ć ligeiramentc menor do quc as outras porquc 256 ndo ć divisivel cxalamcmc por 37). Scmpre quc e encon- 
trado um valor dc cinza na zona 0. sua cćlula de meio-tom sohre o papel e deixada em branco. como ilustrado na 
Figura 2.33(a). Um valor dc zona I ć impresso como I pixe! negro. Um valor de zona 2 ć impresso como 2 pixcls 
negros, como inostra a Figura 2.33(b). Outros valores de zonas sao mostrados nas tiguras 2.33(0) a (0. Claro que 
pegar uma fotografia digitalizada a 600 dpi c usar cssa tćcnica de mcio-tom reduz a rcsolugao efctiva a 100 cćlu- 
las/polcgada. denominada frcqiiencia de tela de meio-tom. medida convencionulmentc em Ipi (lines per inch — 
linhas por polegadai. 
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co figura 2.33 

Pontos de meio-tom para 
varias faixas de escaJa de 
cinza. (a) 0-6. (b) 14-20. 

(c) 28-34. |d| 56-62. 

[et 105-111. |f) 161-167. 

Impressoras em cores 

Imagens coloridos podem ser vistas de duas maneiras: por luz transmitida e por luz refletida. Imagens por luz 
transmitida. como as produzidas em monitores CRT. sao compostas por superposięao linear das trcs cores prima- 
rias aditivas. vermelho. verde e azul. Imagens por luz refletida. como fotografias era cores e fotos em revistas de 
papel lustroso, absorvem cenos comprimentos dc onda de luz e rcfletem o resto. Elas sao compostas por uma super 
posięao linear das tres cores subtrativas primarias, ci ano (toda cor /ermelha absorvida), umarcia (toda cor azul 
absorvida) e magenta (toda cor verde absorvida). 

Em teoria, toda cor pode ser produzida misturando as tintas ciano, umarcia c magenta. Na pratica e diffcil con- 
seguir cssas tintas com purcza sullciente pani absorver toda a luz c produzir um negro verdadeiro. Por essa razao, 
pruticamcnte todos os sistemas dc impressao em cores usam quatro tintas: ciano, umarcia, magenta c negro, Esses 
sistemas sao denominados impressoras CYMK [K rcprcscnta negro (hłacK)\, para evitar confusao com azul ( hlue ). 
Monitores, ao contrario, usam luz transmitida e o sistema RGB para produzir cores. 

O conjunto completo dc cores quc um visor ou impressora pode produzir e denominado sua gama. Nenhum 
dispositivo icm uma gutna que se iguale a do mundo rcal. uma vez que cuda cor vem em 256 intensidades no maxi- 
mo. o quc dd somente 16.777.216 cores discretas. Imperfcięócs na tccnologia reduzem ainda mais esse total e as 
restantes nem sempre estao uniformemente cspacadas no cspectro dc cores. Alćm do mais, a pcrccpęao da cor tem 
muito a ver com o modo de luncionamento dos bustOes e concs na retinu humana, c ndo apenas com a lisica da luz. 

Como eonsoqiiencia dessas obscrvaę<5es, convertcr uma imagem colorida quc parcce boa na tela cm uma ima- 
gem impressa idenlica eslii longe de ser trivial. Entrc os problemas estao: 

1. Monitores em cores usam luz transmitida; impressoras em cores usam luz relletida. 

2 . CRTs produzem 256 intensidades por cor; impressoras tem de usar meios-tons. 

3. Monitores tem um fimdo negro; papel tem um fundo luminoso. 

4. As gamas RGB e CMYK sao diferentes. 

Obtcr imagens impressas cm cores que reproduzam os tons do mundo real (ou atć mesmo os das imagens na 
telaj requer calibraędo de dispositivos. software solisticado e considerdvel conheeimento tócnico c expcrićncia da 
parte do ustuirio. 

Hri cinco tecnologias de utilizaęao comum para impressao em cores, todas elas baSeadas no sistema CMYK. 
Na cxtrcmidade mais baixa estao as impressoras em cores a jato de tinta. Elas funcionam do mesmo modo que 
impressoras monocromaticas a jato de tinta, mas com quatro cartuchos (para C, M, Y e K) em vez de um. Dao bons 
resuitados para grificos coloridos c resultados accildveis para fotos a um custo inodesto (as impressoras sao bara- 
tas, mas os cartuchos nao). 

Para melhores resultados e preciso usar tinta e papel especiuis. Tintas a base de corantes consistem em coran- 
tes coloridos dissolvidos em uma base fluida. Elas dao cores brilhantes e tluem com facilidade. Sua principal des- 
vantagem e que desbotam quando expostas a luz ultravioleta, tal como a contida na luz solar, Tintas a base de pig- 
mentos eontem paniculas sólidas de pigmentos suspensas em uma base fluida que evapora do papel deixando ali o 
pigmento. Nao desbotam com o tempo, mas nao sao tao brilhantes como as tintas ii base de corantes e as partfculas 
de pigmento tendem a entupir os bicos injetores, que rcquerem limpeza pcriódica. Para imprimir fotografias e pre¬ 
ciso papel lustroso ou revestido. Esses tipos dc papci 1'oram projetados especialmente para conier as gotfeulas de 
tinta e nao permitir quc elas se espalheni. 

Em um degrau acinia na cscuia das impressoras a jato de tinta encontranios as impressoras de tinta solida. 
Elas tćm quatro blocos sólidos dc uma tinta especial i base de cera, que siło derretidos e passam para rcservatórios 
de tinta qucnte. Os tempos dc partida dessas impressoras podem ehegar a 10 minutos, enquanto os blocos de tinta 
estao derretendo. A tinta qucntc ć borrifada sobre o papel. onde se solidifica e se fundc com o papel quando este e 
foręado a passar entre dois rolctes rigidos. 

O tcrceiro tipo de impressora cm cores ć a impressora a laser. Ela funciona como sua prima monocromatiea. 
exceto que imagens C. Y. M e K separadas siio assentadas c transferidas para um roleto usando quatn> toners dife¬ 
rentes. Visto que em geral o mapa de bits completo ć produzido com antecedencja. unia imagem de 1.200 ? 1.200 
dpi para uma pdgina que eontem 80 polcgadas quadradas prccisa dc 115 milhócs dc pixcls. Com 4 bits/pixels u 
impressora precisa de 55 MB w para o mapa de bits, excluida a memória para os proccssadorcs intemos. fonles etc. 
Esses reąuisitos tomam as impressoras u laser caras. mas a impressao e rapida, a qualidadc ć alta c as imagens siio 
esUWeis em rclaęao ao tempo. 

O quinto tipo dc impressora em cores e a impressora a cera. Ela tem uma larga Otu encerada em quatro cores. 
segmentada em faixas do tamanho de paginas. Milharcs dc elementos de aqueeimento derretem a cera ii rnedida que 
o papel passa por baixo dcla. A cera sc fundę com o papel na forma dc pixcls usando o sistema CMYK. Impressoras 
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a cera costumavam ser a principal tecnologia de impressiio om corcs. mas cstao sendo substituidas pclos outros tipos 
cujos materiais de consumo sao mais baratos. 

O quarto tipo de impressora cm corcs ć a impressorn por sublimucao de corantc, ou dc tinta. Embora tenha 
algo de freudiano, sublimaęao e o nome cientffico da passagem do estado sólido para o gasoso sem piissar pelo esta- 
do Ifąuido. Gelo seco (dióxido de carbono congclado) ć um materiał bem conhccido quc sublima. Em uma imprcs- 
sora por sublimaęao de tinta, uma portadora eontendo os corantcs CMYK passa sobrc um cabcęnte de impressao 
tćrmico que cotuem miiharcs de clemenios dc aouecimento programdveis. As lintas sao vaporizadas instantanca- 
mentc e absorvida.s por um papci cspccial que esta próxuno. Cada elemento de aquccimcnto pode pmduzir 256 tem- 
peraturas diferentes. Quanto mais alta a temperatura, mais Coranie e depositado e inais intensa 6 a cor. Diferente de 
todas as outras impressoras em corcs. nessa sao possivcis corcs praticamente eontfnuas para cada pixel. portanto o 
meio-lom niio e necessario. Pequcnas impressoras de instantUneos muitas vezes usam processo dc sublimaęao dc 
tinta para produzir imagens fotogrdficas de alto grau de realismo sobrc papci especial (c caro). 

2.4.5 Eąulpamento de telecomunicaęóes 

Hoje em dia, grandę parte dos computadorcs csui ligada a uma redc de computadurcs, frcqilcntemente a 
Internet Conseguir acesso requcr cquipamento especial. Nesta scęao vcrcmos como esse equipamcnto funciona. 

Modens 

Com o crcscimento da utilizaędo de computadorcs nos ultimos unos. e comum que um computador prccise sc 
comunicar com outro. Por exemplo, muitas pessoas tćm em casa computadorcs pessouis que usam para sc comuni- 
car com o computador quc esta em scu local de trabalho, com uma provedora dc scrvięo de Internet (ISP — Internet 
Scrvice Provider) ou com um sistemn de lunne banking. Em muitos casos. a linha telefónica provć a comunicaęao 
ffsica. 

Contudo, uma linha telefónica comum (ou cabo) niio ć adcquada para transmissao de sinais dc computador que 
gcralmcnte representam um bit 0 como 0 volts e um 1 bil como 3 a 5 volts, como mostra a Figura 2.34(a). Sinais 
de dois n(veis sofrcm considerdvcl distoręio quando transmitidos por uma linha telefónica projetada para voz. o que 
rcsulta em erros dc transmissao. Todavia, um sinal de onda scnoidal pura a uma tireqUenc:a de l.(KX) a 2.000 Hz. 
denominada portadora. pode ser transmitido com rclativamente pouca distoręao e esse fato i explorado como a 
base da maioria dos sistemas de telecomunicaęao. 

Como as pulsaęóes de uma onda scnoidal sao lotalmenic previsiveis. uma onda senoidal pura niio transmite 
nenhuma informaęao. Contudo, variando a amplitudę, a t'reqiłćncia ou a fasę, uma seqiiencia dc I s e 0 s pode ser 
iransmitida, como mostra a Figura 2.34. Esse processo e denominado modulaęao. Em modulaęao de amplitudę 
i veja a Figura 2.34(b)), sao usados dois nivcis de tensao elćtrica (voltagem) para 0 e I. respcctivamentc. Uma pes- 
soa que esteja ouvindo dados transmitidos a uma taxa de dados muito baixa ouvina um alto rafdo para um 1 c 
nenhum nudo para um 0. 

Em modulaęao de frequencia (vcja a Figura 2.34(c)), o nivcl de icnsiio elćtrica (voltagcm) e constante, mas 
a freqtiencia da portadora e diferente para 1 c para 0. Uma pessoa quc estivcs.se ouvindo dados digitais com fre- 
qiiencia modulada ouviria dois tons, correspondentes a 0 e I. A modulaęao dc lreqtiencia costuma ser denominada 

modulaęao por chaveainento de Freqiiendn. 

Em modulaęao de fasę siinpics (veja a Figura 2.34(d)). a amplitudę e a freqiienciu nao niudam, mus a fasę da 
portadora e invertida 180 graus quando os dados pussam dc 0 para 1 ou de 1 para 0. Em sistemas dc fasę modulada 
mais sofisticados. no infcio dc cada intervalo de tempo indivisivel a fasę da portadora e abruptamente mudada para 
45, 135, 225 ou 315 graus, para pennitir 2 bils por i ulewało de tempo, denominado codifkaędo de fasę dibit. Por 


Flgun 2.34 

Transmissao bit a bit do 
niimero btnario 
01001011000100 por uma 
linha telefónica. 

(a) Sinal de dois niveis. 

|b| Modulaęao de amplitudę, 
(cj Modulaęao de frequenaa. 
|d| Modulaęiło de fasę. 
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excmplo. uma mudanęa de fasę de 45 graus poderia reprcscntar 00, uma mudanęa de fasę de 135 graus poderia repre- 
scntar Ol e assim por dianie. Tambem existcm outros csqucmas para transmitir 3 ou mais bits por intervalo de tempo. 
O mimero dc iniervalos de tempo, isto e. o ntimcro dc mudanęas dc sinal por scgundo, e uma taxa de hauds. Com 2 
ou mais bits por intervaio, a taxa de bits ultrapassani a taxa dc bauds. Muitos confundem os dois termos. 

Se os dados a serem iransmitidos consistircm em uma sćric dc caractcrcs de 8 bits. seria descjavei ter uma 
conexao capa/ de transmitir 8 bits simultaneamentc — isto e. oito pares dc Gos. Como as linhas telefdnicas oferc- 
cem apenas um canal, os bits tern de ser cnviados scrialmentc, urn ap«5s o outro. ou em grupos dc dois se estiver 
sondo usada codiGcaęao dibit. O dispositivo quc accita caracieres dc um computador na forma dc sinais dc dois 
niveis. um bit por ve/ e transmitc os bits em grupos dc um ou dois, em forma de amplitudę. frcquencia ou fasę 
modulada e o modem. Para marcar o inicio e o finał dc cada caraetere. normalntcntc e enviado um caractcre de b 
bits prcccdido por um bit dc inicio e seguido por um bit dc lim. louilizando 10 bits. 

O modem que esta transmitindo cnvia os bits individuais dentro de um caraetere a intcrvalos dc tempo regu- 
larmente espaęados. Por cxemplo. 9.600 bauds implica uma mudanęa dc sinal a cada 104 microssegundos. Um 
scgundo modem nu extremidadc receptora e usado para convcrtcr uma portadora modulada em um ntimero binario. 
Como os bits ohegam no receptor a intervalos rcgularmente espaęados, uma vcz que o modem receptor tenha deter 
minado o inicio do caraetere, scu rclógio o informa quundo amostrar u linha para ler os bits que estao entrando. 

Modens modemos funcionam a taxas de dados na faixa dc 28.800 bits/s a 57.600 bits/s. usualmente a taxa dc 
bauds muito mais buixas. Elcs usam uma combinaęao dc tćcnicas para enviar multiplos bits por baud, modulando 
a amplitudę, a I'rcqii6ncia e a fasc. Quase todos elcs siło full-dupltw, o que quer di/er que podem transmitir em 
ambas as direęóes ao mesmo tempo (usando freqU6ncias diferentes). Modens ou linhas de transmissdo quc só 
podem transmitir cm uma dircęao por vez — como uma ferrovia com uma unica linha que pode transportur trens 
em dircęao ao norte ou trens em dircęao ao sul, mas nao faze-lo ao mesmo tempo — siło denominados half-duplex 
ou scmiduplcx. Linhas que só podem transmitir cm uma dircęao sao linhas simplex. 

Linhas digitais de assinante (DSL — Digital Subscriber Lines) 

Quando a industria da telefonia finalmente chcgou aos 56 kbps, ela se congratulou por um trabalho bem-feito. 
Enquanto isso. a industria da TV a cabo estava ofercccndo vclocidades de ate 10 Mbps em cabos compartilhados e 
as cmprcsas operadoras de satelites estavam piancjando ofereccr mais de 50 Mbps. A medida que o acesso a Internet 
tornou-se uma parte cada vcz mais importantc dc scus negócios, as tclcos (telcphone companics — cmprcsas de 
telefonia) comeęaram a pcrcebcr que prccisavam de um produto mais compctitivo do quc linhas discadas. A res- 
posta dessas empresas foi comeęar a ofereccr um novo scrvięo digital de accsso ii Internet. Servięos com mais lar- 
gura dc banda do que o scrvięo tclcfónico padriio hs vezcs siio denominados scrvięos de banda larga, embora, na 
realidadc, o termo seja mais um conccito de marketing do que um conccito tecnico especfGco. 

Dc inicio, hnvia muitas ofertas que se sobrepunham. todas sob o mesmo nomc gcml dc xDSL (Digital 
Subscriber Linę), para vdrios .r. Mais adiantc discutiremos o servięo quc pmvavelmente vai se tomar o mais popu 
lar desses, o ADSL (Asymmetric DSL — DSL assimetrico). Vislo quc o ADSL ainda esta sendo desenvolvido e 
nem todos os padróes estao totalmente em vigor, alguns dos detalhes dados mais adiantc podem mudar com o 
tempo, mus o quadro basico devc continuar vdlido. Para mais informaęao sobrc ADSL, veja Summers, 1999; e 
Vcttcr et al„ 2000. 

A raziło por que modens sao tiio lenios e quc os tclcfoncs forum invcntudos para transmitir a voz humanu e todo 
o sistema foi cuidadosumcnte otimizado para essa Gnalidade. Dados sempre forum filhos enjeitados. A linha, deno- 
minadu loop local. dc cada assinante da companhia telcfónica 6 trudicionalmentc limitada a cerca de 3000 Hz por 
um tiltro na central da empresa de telecomunicaędes. E esse Glut) que limita a taxa de dados. A largura de banda real 
dc loop local depende de scu comprimcnto. mas. para disiUncias tfpicas de alguns quilflmeUt>s, I, I MHz ć viavćl. 

A configuruęao mais comum da oferta de ADSL e ilustruda na Figura 2.35. Na verdade. o que ela faz e remo- 
vcr o Gltro e dividir o espectro disponivel dc LI MHz no ltxip Ux;ul em 256 eanais independentes dc 4.312.5 Hz 
cada. O canal 0 e usado para POTS i Ptain Old Telcphone Service — scrvięo telefónicn normai). Os eanais I a 
5 nao sao usuilos paru evitar que o sinal de vo/. e os suiais dc dados intcilirum um com os outros. Dos 250 eanais 
rcslantes, um e usado para conuole na dircęao da empresa de telefonia e o outro paru eonlrole na dircęao do usua- 
rio. O resto esui disponivel para dados do usuario. O ADSL equivalc a ter 250 modens. 

Em principia, cada um dos eanais remanescentes pode ser usado para uma concnte dc dados Gill-duplcx mas. 
na pratica, harmónicos. linhas cruzadas e outros efeitos mantem os sislcmas hem abaixo do limite teórico. Cabc ao 
provedor determinur quantos eanais siło usados na dircęao da empresa c quantos na dircęao do usuario. Uma pro- 
poręao de 50-50 para cada um e tecnicamentc possivcl. mas a maioriu das provcdoras aloca upmximudumcntc 


256 eanais ds 4 kHz 
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8()%-90% da largura de banda na direęao do usuario, uma vez que eles descarregam mais dados do que carregam. 
Essa opęao deu origem ao 'A’ cm ADSL. Uma divisilo comum sio 32 canais na dircyao da ompresa e o resto na 
dircyao do usuario. 

A quaiidade da linha ć monitorada constantemcntc dentro de cada canal c a taxa de dados ć ajustada continua- 
mcnlc conformc neeessurio, portanto canais diferentes podem ter taxas de dados diferenlcs. Os dados propriamcn- 
tc ditos sao enviados usando uma cnmbinayao de modulayao de amplitudę c de fasę com atć 15 bits por baud. Por 
e.templo. com 224 canais na dircyao do usudrio e 15 bits/baud a 4.000 bauds, a largura de banda na dircyao do usua- 
rio ć 13,44 Mbps. Na pnitica. a relayao sinai/rutdo nunca e boa o suiiciente para alcanyar essa taxa, mas 4-8 Mbps 
e possivel em disiancias curtas por loops de alta quaiidade. 

Urna configuruyuo ADSL tipica e mosirada nu Figura 2.36. Nesse csquema, o usuario ou um tecnico da com- 
panliia lelcfónica deve insudar um NID i .NetWork Interfacc Device — dispositivo de interface de rede) na casa 
ou escritório do clicnte. Essa caixinha de pldstico marca o finał da propncdadc da emprcsa lelcfónica c o imcio da 
propricdadc do clientc. Prdximo ao NID (ou as vezes combinado com ele) ha um divisor, um Illtro nalógico que 
scpara a faixa dc 0-4.000 Hz usada pelo POTS dos dados. O sinaJ do POTS ć direcionado ao telefonu ou aparelho 
de fax existente e o sinal de dados ć direcionado a um modem ADSL. 

Na verdade. o modem ADSL ć um processador de sinal digital que foi montado para agir como 250 modens 
funcionando em paralelo a t'rcquencias diferentes. Uma vez quc a maioria dos modens ADSL cxistcntes e extcma. 
o computador devc estar concctado a ele a alta velocidade. Isso costuma ser fcito cum u instalayao de uma płaca 
Ethernet no computador c operayao de uma Ethernet muito curta de dois nos quc conlćm apenas o computador e o 
modem ADSL. (Ethernet e um padriło de rede local popular e barato). Ocasionalmentc. usa-se porta USB em vez 
da Ethernet. Sem dtivida haverd placas intemas de modem ADSL dispomvcis no futuro. 

Na outra estremidade da linha. no lado da etnpresa telefónica osid instalado um divisor corrcspondentc ondc 
a poryao da voz e fil trądu e enviada ao comutador de voz normal. O sinal acima de 26 kHz ć direcionado para um 
novo tipo de dispositivo denominado DSLAM (Digital Subscribcr Linę Access VIultiplcxer — multiplexadur 
de acesso de linha digital de assinantc), que contćm o mesmo tipo de processador de sinal digital que o modem 
ADSL. Uma vez recuperado o sinal digital em uma corrente de bits, sao formados pacotes e enviados a ISP. 

Internet por cabo 

Muitas empresas de TV agora estao oferecendo acesso a Internet por meio de scus cabos. Uma vcz que a tec- 
nologia e muito diferente da ADSL. valc u pena fazer uma breve descriyao delu. Em cada cidade a operadora por 
cabo tem uma central e uma grandę quantidadc de caixas cheias de dispositivos eletrónieos denominadas terminais 
dc distribuicao < headends) distribuidas por todo o scu territono. Os terminais de distribuięao estao concctados a 
central por cabos de alta largura dc banda ou de libra ótica. 

Cada terminal tem um ou mais cabos que pussam por centcnas de casas e cscritórios. Cada clientc da provc- 
dora [Kir cabo estii ligado ao cabo que passa por suu casa ou escritório. Assim. centcnas de usuurios compurtilhum 
o mesmo cabo atć o terminal. Em geral. o cabo tem uma largura dc banda dc aproximadamcntc 750 MHz. Esse sis- 
tema e radicalmcnte diferente do ADSL porque cada usuario dc telcfonc tem uma linha privada (isto e, nao com- 
panilhada) com a central telefónica. 

Contudo, na pnitica, ter seu próprio canal de 1,1 MHz com uma empresa de telefonia nao ć muito diferente do 
quc compartilhar uma poręao de 2(K) MHz do espcctro do cabo que chega ao terminal com 400 usuarios, inctadc 
dos quais nao o estara usando em qualquer dudo momento. Porem, isso signilicu que um usuario dc Internet por 
cabo conseguird um scrvięo muito melhor as 4 horas da manha do quc as 4 horas da (aide. cnquanto o servięo ADSL 
e constante durantc o dia intciro. Quem quiser obter um ótimo servięo de Internet por cabo devcria considerar sc 
mudar para uma vizinhanga rica (casas mais afastadas uma da outra. portanto menos usuarios por cabo) ou para um 
bairro pobre minguem pode pagar servięo de Internet). 
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Figura 2.37 

Alocaęaa de freąuencia em 
um tipico sistema de TV por 
cabo usado para acesso a 
Internet._ 



Uma vez que o cabo e um meio compartilhado, determinar quem pode enviar. quando e em qual lreqiiencia e 
uma questao importante. Para ver como isso funeiona, temos de fazer um breve resumo do modo de funcionamen- 
to de uma TV por cabo. Nos Estados Unidos. os canais de televisao por cabo normalmonte ocupam a regiao dc 54 
a 550 MHz (exceto para radio FM, de 88 a 108 MHz). Esses canais tern 6 MHz de Iargura. incluindo faixas de pro¬ 
teino para impedir vuzamento de sinal entre canais. Na Europa, a extremidade baixa e normalmentc 65 MHz e os 
canais tern de 6 a 8 MHz de iargura para a resoluęao mais alla cxigida por PAL e SECAM: porem, quanto ao mais, 
o esąuema de alocaęao e similar. A poręao inferior da banda nao e usada para transmissao dc televisiio. 

Quando as empresus por cabo lanęaram a Internet por cabo. tinham dois problemas a reso!ver: 

1. Como acresccntar acesso a Internet sem interferir com programas de TV. 

2 . Como ter tnifego bidirecional quando os amplilicadores sao inerentemente unidirecionais. 

As soluęóes s3o as seguintes. Cabos modemos opętani hem acima de 550 MHz, muitas vezes atć 750 MHz ou 
mais. Os canais ascendcntcs. isto e. do usudrio ao terminal dc di.stribuięao. entram na faixa de 5 a 42 MHz (um 
pouco mais alta na Europa), e o trdiego dcscendcnlc. isto ć. do terminal dc distribuięao ao usuario, usa as freqllćn- 
cias da extrcmidade alta. como ilustrado na Figura 2.37. 

Notę que. uma vcz quc os sinais dc TV sao todos desccndentes, e possfvel usar amplilicadores ascendentes que 
funcionam somente na regiao de 5 a 42 MHz, e amplilicadores dcscendentes que funcionam somente a 54 MHz e 
acima, como mostra a figura. Assim, obtemos uma assimetria nas larguras de banda ascendcnte e descendente por- 
que ha mais cspectro disponivcl acima da banda da tclevisao do que abaixo dela. 

Por outro lado, a maior parte de trdfego serd provavelmente na direęao descendente, portanto as operadoras 
por cabo nao estiio infelizes com essas coisas da vida. Como vimos antes. empresas dc telefonia usualmente ofere- 
cem um servięo DSL assimćtrico, ainda que nao tenhain nenhuma raziło tócnica para fazer isso. 

O acesso d Internet requer um modem por cabo. um disposilivo que tern duas interfaces: uma com o compu- 
lador e outra com a rede por cabo. A interlace computador-modem por cabo ć direta. Normalnienie e Etliemet, exa- 
tamente como nu ADSL. No futuro, o modem inteiro podera se resumir u uma pequena płaca inserida no computa- 
dor, exatamente como os modens intemos V.9x. 

A outra extremidade e mais complicada. Uma grandę parte do padrao por cabo lida com engenharia de 
radio, uma quest3o que esui muito alem do escopo deste livro. A tinica parte que vale a pena mencionar 6 que 
modens por cabo, assim como modens ADSL, estiio sempre ligados. Eles estabelecem uma conexao quando sao 
ligados e mantem essa conexdo cnquanto houvcr energia, porquc operadoras por cabo nao cobram por tempo 
de conex3o. 

Para entender melhor como elas funcionam, vamos ver o que acontece quando um modem por cabo i instala- 
do e ligado. O modem faz uma varrcdura dos canais descendcntes em busca de um pacote cspecial lanęado perio- 
dicamente pelo terminal de distribuięao para fomecer parametros do sistema aos modens que acabarara dc entrar 
em linha. Quando acha esse pacote. o novo modem anunem sua presenęa em um dos canais ascendentes. O termi¬ 
nal de distribuięao responde designando o modem a seus canais ascendcnte e descendente. Essas dcsignuęóes 
podem ser mudadas mais tarde se o terminal de distribuięao achar necesstirio cquilibrar a carga. 

Entiio o modem determina sua distancia em relaęao ao terminal dc distribuięao enviando um pacote cspecial 
e observando quanto tempo dcmora para ele obter uma resposta. Esse processo e denominado ranging. E impor¬ 
tante que o modem conheęa sua distancia para ajustar o modo como os canais ascendcntcs operam e para acertar 
sua temporizaęao. Eles sao divididos em minintervalos de tempo. Cada pacote ascendcnte devc se ajustar a um ou 
mais mininterva!os de tempo consecutivos. O terminal de distribuięao anuncia periodicamente o ihicio de uma nova 
rodada de minintervalos de tempo, mas o tira dc larguda nao ć ouvido por todos os modens simultaneumonie por 
causa do tempo dc propagaęao pelo cabo. Sabendo a que distdncia esta do terminal de distribuięao. cada modem 
pode calcular ha quanto tempo o pritneiro minintervalo rcalmente comeęou. O comprimento do minintemlo depen- 
de da rede. Uma carga utii ttpica e 8 bytes. 

Durantc a inicializaęao, o terminal de distribuięao nimbem designu cada modem a um minintcrvalo quc sera 
usado para requisitar Iargura de bandu ascendentc. Como regra. multiplos motlens scrao designados ao mesmo 
ntinimervalo, o que leva ii contenęiio. Quando um computador quer enviar um pacote. cle o transferu ao modem. 
quc entiio rcquisita o mimem necessario de minintervalos para ele. Se a requisięao for accitu, o terminal dc distri¬ 
buięao manda um reconhecimento pelo cunal descendente informando ao modem quais minintcmlos foram reser- 
vados para seu pacote. Entao o pacote e enviado. comcęando no minintcrvalo a ele alocado. Pacotes adicionais 
podem ser requisitados usando um campo no cabeęalho. 





Figura 2.28 

Detalhes tipicos dos canais 
ascendentes e descendentes 
na America do Norie. QAM-64 
(Ouadrature Amplitudę 
Modulanon - modulacao de 
amplitudę em quadratura| 
permite 6 bits/Hz mas funcio- 
na somente em alias :requen- 
das. QPSK (Ouadrature Phase 
Shift Keying - modulaęao por 
chaveamento de łase om qua- 
dratura) funciona em baixas 
freguencias mas permite ape- 
nas 2 bits/Hz._ 




Por oulro lado, se houver eontcnęao para o minintcrvalo requisitado, nenhum reconhecimento sera envtado e 
o modem espora um tempo aleatório, e tema mais urna vcz. Após cuda umu dessas tentativas sucessivas mulsucedi- 
das o tempo aleatório e duplicado para distribuir a carga quando o trafego estiver pesado. 

Os canais descendentes sao gcrenciados de modo diferente dos canais ascendentes. Uma razao ć que hu 
somente um rcmetentc (o terminal de dislribuięaoj, portanto nao ha ncnliuma eontcnęao e nenhuma necessidadc de 
minintervalos que, na verdadc, e apenas um modo de muiliplexaęao por divisdo estutfstica. Uma outra raziło e que 
o inifego deseendente eostumu ser muilo maior do que o asccndcnte, portanto ó usado um pacotc de tamuuho fixo 
de 204 bytes. Parte delc i um código dc corrcęao de erras de Rced-Solomon c algumas outras informaęóea de eon 
troić, sobrando 184 bytes de carga util para o usuario. Esscs numeros foram escolhidos para compatibilidade com 
telcvisao digital que usa MPEG-2, dc modo que os canais de TV e os canais dc dados descendentes sejam forma- 
tados do nicsmo modo. O aspecto lógico das concxóes e moslrado na Figura 2.38. 

Voltando ii inicializacao do modem, uma vez conclutda a ranging c obtida a designaęao dc seu canal ascen- 
dente, canal deseendente e minintcrvalo, o modem estii liberado para eomeęar a enviar pacotes. Esses pacoies vSo 
atć o terminal de distribuięiio, que os retrunsmite por um canal dedicado atć a central da operadora por cabo e enlao 
atć o ISP (que pode ser a própria empresa por cabo). O pritneiro pacote e dirigido ii ISP c requisila um endereęo dc 
rede (tecnicamentc, um endereęo IP) que i designado dinamicamente. O pacotc tambćm requisita e obtem um hora- 
rio cxato. 

A próxinui etapu cnvolve seguranęa. Uma vez que o cabo ć um meio compartilhado. quem quiscr se dar ao tra- 
balho pode ler todo o tnifbgo que passar por ele. Para cvitar que quaiquer um bisbilhote seus vizinhos — literał 
mente —. todo o trifego ó criptografado em ambas xs dircęóes. Parte do procedimcnto de iniciaiizaęao envolve esta- 
belecer chaves oriptogrdficas. A principio poderiamos pensar quc conscguir que dois estranhos. o terminal de 
distribuięiio e o modem, combinem uma chuve seereta em plena luz do dia com milhures dc pcssoas vigiundo seria 
algo diffcil. Acontecc quc nao e, mas u tecnicu usuda (o algoritmo de Diffic-Hellman) estii fora do cscopo desie 
livro. Uma discussao sobre esse algoritmo e dada em Kaufman et al. (2002). 

Por firn, o modem tern de sc registrar (fazer login) c fomecer seu idcntificador cxclusivo pelo canal seguro. 
Ncssc ponto estii eoncluida a inicializaęao. Agora o usuario pode se concctor com a ISP e eomeęar a trabaihar. 

Ha muito mais a ser dito sobre inodcns por cabo. Algumas refcrcncias relevantcs sao: Adams c Dulchinos. 
2(X)1; Donaldson e Jones. 2001; c Dutta-Roy, 2001. 

2.4.6 Cameras digitais 

Uma utili/aęóo cada vez mais popular de computadorcs ó a fotografia digital. o que transforma cameras digi¬ 
tais cm uma espóeie de perifćnco de computador. Vamos fazer uma breve dcscriędo de como isso funciona. Todas 
as cameras tern uma lenie que forma uma imagom do sujcilo no fundo da camera. Em um equipumcnto convcncio- 
nal. o tundo da camera csui cobcrto por uma pelicula fotognifica — filmc — sobre a qual ć formada uma imagem 
latenle quando u luz a atinge. 

Essa imagom latenle pode ficar visivel pela aęao dc certos produtos qu(micos presentes no lfquido de revela- 
ęao. ou rcvelador. Uma camera digital funciona da mesma maneira, exceto que o tilme e substituido por um arran- 
jo retangular dc CCDs (Charge-Coupled Devices — dispositivos de carga emparelhada) sensivel ii luz. 
i Algumas cameras digitais usam CMOS (Compiementary Meral-Oxydc Scmiconductor — semicondutor óxido 
mctalico complcmcnlar), mas aqui vamos nos concentrar nos CCDs, quc sao mais comuns.) 

Quando a luz atinge um CCD. cle udquire umu carga eletrica. Quanto mais luz, mais carga. A carga pode ser 
lida em um eonvorsor analógico para digital como um intciro dc 0 a 255 (em cameras mais baratas) ou dc 0 a 4.095 
(cm cameras rcflex digitais dc umu lente). A cnnfiguraęao biisica ć mostradu nu Figura 2.39. 

Cada CCD produz um unico valor, independente da cor da luz quc o atinge. Para formur imagens coloridas, os 
CCDs sao organizudos cm grupos dc quatro eleracntos. Um filtro Bayer e colocado no topo do CCD dc modo a 
permitir que somente a luz vermelha atinja um dos quatro CCDs em cada grupo, somente a luz azul atinja um outro 
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c somente a luz vcrde atinja os outros dois. Sao usados dois CCDs para a luz verdc porque utilizar qualro CCDs 
para rcpresentar um pixcl e muito muis convcniente do que usar tres, e o olho ć mais scnstvel a luz vcrdc do quc ii 
venriclhu ou azul. Quundo um fabricantc dc camerus digitais afirma quc urna camera tern, por cxcmplo, 6 milhdcs 
dc pixcls, cle es ta mentindo. A camera tem 6 milhócs dc CCDs que, junios, formam 1,5 milhdcs dc pixcls. A ima- 
gem serd lida como um arranjo de 2.828 X 2.121 pixels (cm dlmcras de baixo preęo) ou de 3.000 X 2.000 pixcls 
(cm SLRs digitais), mas os pixets cxtras sto produzidos por interpolaęto por software dentro da camera. 

Quando o bonio do obturador da camera ć pressionado, o software do cquipamenio rcaliza tres tarefas: ajus- 
ta o foco. determina a exposięto c efetua o equilfbrio do branco. O autofoco funciona analisando a informaęao dc 
alta frcquencia na imagem c entao movimcntando a lente atć que cla seja maxiinizada, para dar o maximo de deta- 
Ihe. A cxposięao ć determinada medindo a luz quc cai sobre os CCDs c entao ajustando o diafragma da lente e o 
tempo de cxposię3o para fazer com quc a intensidade da luz caia no mcio da faixa de alcancc dos CCDs. Ajustar 
o equilfbrio do branco tem a ver com medir o cspcctro da luz incidcntc para efeiuar as neccssarias corrcęoes de 
cor mais tarde. 

Entao. a imagem e lida com basc nos CCDs c arma/.cnada como um arranjo dc pixcls na RAM interna da 
camera. SLRs de primeira linha usados por fotojomalistas podem fotografar oito quadros de alta resoluęao por 
segundo por 5 segundos, c precisam dc aproximadamcntc 1 GB dc RAM interną para armazenar as iinagens antes 
de processa-las e armazena-las pcrmancntementc. C3meras mais baratas tćm menos RAM. mas ainda assim tćm boa 
quantidadc. 

Na fasę de pós-captura. o software da camera aplica a corrcęuo da cor por cquiltbrio do branco para compcn- 
sar a luz avermclhada ou azulada (por cxcmplo, dc um objęto na sombra ou du utilizaęao dc um flash). Em segui- 
da aplica um algoritmo paru reduzir rufdo e um outro para compcnsar CCDs dcfcituosos. Logo após o software tenta 
dar melhor definięao 3 imagem (a menos quc essa caractcristica esteja desativada) procurando contomos e aumen- 
tando o gradiente dc intensidade ao redor dclcs. 

Por firn. u imagem pode ser comprimida para reduzir a quantidadc dc armuzenagem rcqucrida. Um formato 
comuin e p JPEG (Joint Photographic Experts Group — grupo associado dc cspccialistas cm fotografia) no 

qual urna transformada dc Fourier cspacial bidimcnsional e aplicada c algumas das componentcs dc alta freqQ£nda 
s3o otnilidas. O rcsultado dessu irunsformuąao ć quc a imagem rcqucr um mimem menor dc bits de armazenagem 
mas perdcm-se os detalhes mais sutis. 

Quando (odo o processamento interno a camera cstiver conclufdo. a imagem ć gravada no mcio dc armazena- 
gcm. cm gcral urna mcmoriu rdpida ou um miniisculo disco rfgido rcmovfvel denominado microdrivc. O pós-pro- 
ccssamcnlo c u gravaęao podcm lcvar varios segundos por imagem. 

Quando o usuario chcga cm casa. a camera pode ser conecladn a um computador. cm gcral usando. por exem- 
plo, urna entrada USB ou um cabo FircWirc. Entao, as imagens sto transferidas da camera para o disco rigido do 
computador. Usando software cspecial. tal como o Adobe Photoshop, o usuario pode recortar a imagem, ajustar bri- 
Iho. contraste e cquilfbrio dc cor. dcstacar. obscurcccr ou rcmover poręóes da imagem e aplicar divcrsos filtros. 
Quando cle cstivcr contcnte com o rcsultado. os arquivos dc imagens podcm ser impressos cm urna impressora cm 
corcs. cnviados pela Internet a urna loja cspecializada para fazer o aeabamenio ou gravados cm um CD-ROM ou 
DVD para armuzenagem cm arquivo c subseqiiente impressao. 

A quantidade dc capacidadc computacionul. RAM. cspaęo cm disco rigido e software cm urna camera digital 
SRL c cstarreccdora. Alćm dc o computador ter dc fazer todas as coisas mencionadas antcriormcntc. ainda prccisa 
sc comunicar com a CPU na lente c com a CPU na memória rdpida. rcnovar a imagem na tcla LCD e gercnciar 
todos os botóes. engrenagens, luzes, mostradores e traquitanas da camera cm tempo real. Essc sistema embutido ć 
cxtremamcnte poderoso c muitas vczcs rivaliza com um computador dc mesa de alguns anos a tras. 
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2.4.7 Códigos de caracteres 

Cuda computador tem um conjunto dc caracteres quc cle usa. 0 conjunto minimo contćm as 26 letras maiiis- 
culas, as 26 letras minusculas, os algarismos dc 0 a 9 e um conjunto de simbolos cspeciuis, como ospało, sinal de 
menos. virguia e retorno ao infcio da linha. 

Para transferir esses caracteres para o computador. um niimero e designado a cada um. por excmplo. a = 1, 
b = 2,.... z = 26. + = 27, - = 28. O mapeamento de caracteres para mimeros intciros e denominado ctidigo de 
caracteres. E essencial que computadoros que sc comunicam usem o mesmo akligo ou mkł conscguirdo sc enten- 
dcr. Por essa ra/ao. ‘oram descnvolvidos padrfies. A seguir csaminarcmos dois dos mais importantes. 

ASCII 

Um código dc ampla utilizaęao e denominado ASCII (American Standard Codę for Information 
Interchange — ctidigo pudriio americano para troca de iniornutęóes). Cada caractcre ASCII tem 7 btts, o quc 
permite 128 caracteres no total. A Figura 2.40 mostra o código ASCII. Os códigos 0 a 1F (hexadecimal) sao carac¬ 
teres dc controle e nao sao impressos. 

Muitos dos caracteres de controle ASCII sao destinados a transmissao de dados. Por cxemplo, urna mensagem 
pode ser composta de um caractcre SOH (Start ot' Hcader — infcio dc cabcęalhoj, um caractere STX (Start of Text 
— infcio de texto). o tcxto em si e um caractere ETX (End of Tcxt — firn do tcxto) e entao um caractere EOT (firn 
da Transmissao). Contudo. na prdtica. a mensagem enviada por linhas icletonicus c rcdes sao formatadas de modo 
muito diferentc. portanto os caracteres ASCII de controle de transmissao ja nao sao muito usados. 

Os caracteres de imprcssao ASCII sdo dirctos. Inciucm as letras maitisculas e minusculas. sinais dc pontuaęao 
e ulguns simbolos matcmaticos. 


Hex 

Nome 

Slgntficado 

Hex 

Nome 

Slgmficado 

0 

NUL 

Nuli 

10 

OLE 

Data Link Escaoe 

| 1 

SOH 

Start Of Heading 

11 

DCI 

Device Contro! 1 

2 

STX 

Start Ol Taxt 

12 

DC2 

0evice Control 2 

3 

ETX 

End Ol Text 

13 

DC3 

Device Control 3 

4 

EOT 

End Of Transmission 

14 

DC4 

Davlca Control 4 

5 

ENO 

Enqulry 

15 

NAK 

Negauve AcKnowledgement 

6 

ACK 

ACKnowledgement 

16 

SYN 

SYNchronous Idle 

l 7 

BEL 

BELI 

17 

ETB 

End of Transmission Błock 

8 

BS 

BackSpace 

18 

CAN 

CANcel 

9 

HT 

HorizontaJ Tab 

19 

EM 

End ot Medium 

A 

LF 

Linę Feed 

1A 

SUB 

SUBstltute 

0 

VT 

Vartlcal TaP 

tB 

ESC 

ESCape 

' C 

FF 

Form Faed 

1C 

FS 

File Separator 

i D 

CR 

Carrlage Return 1 

113 

GS 

Group Separator 

i 6 

SO 

Shift Out 

1E 

RS 

Record Separator 

; F 

SI 

Shift In 1 

1F 

US 

Unit Separator j 


Conjunto de 


caracteres ASCII. 

_ Hex 

Car. 

Hex 

Car. 

Hex 

Car. 

Hex 

Car. 

Hex 

Car. 

Hex 

Car. 


20 

(Space) 

30 

0 

40 

a 

T 50 

P 

60 


' 70 

P 


21 

i ! 

1 31 

1 

41 

A 

51 

O 

i 61 

a 

71 

q 


, 22 

* 

i 32 

2 

42 

B 

52 

R 

62 

b 

'72 

r 


23 

* 

! 33 

3 

43 

C 

53 

S 

63 

c 

73 

s 


24 

s 

| 34 

4 

44 

0 

54 

T 

64 

d 

74 

t 


25 

% 

35 

5 

45 

E 

55 

U 

65 

e 

75 

u 


26 

& 

36 

6 

46 

F 

56 

V 

66 

1 

76 

V 


| 27 


37 

7 

47 

G 

57 

W 

67 

9 

77 

w 


28 

< 

38 

a 

48 

H 

58 

X 

68 

h 

78 

X I 


29 


39 

9 

49 

1 

59 

Y 

6B 

1 

79 

y 1 


2A 


3A 


4A 

J 

SA 

Z 

6A 

I 

7A 

z 1 


2B 


3B 


4B 

K 

5B 

1 

6B 

k 

7B 

< 1 


2C 


3C 

< 

4C 

L 

i 5C 

\ 

6C • 

I 

, 7C 

1 1 


' 20 


1 3D 


4D 

M 

5D 

j 

6D 

m 

7D 

) ! 


2E 


3E 

> 

4E 

N 

5E 


8E 

n 

7E 



2F 

/ 

' 3F 

? 

4F 

O 

5F 


6F 

o ,7F 

DEL 


UNICODE 

A indiistria do computador se desenvolveu em grandc parte nos Estados Unidos, o quc lcvou ao conjunto de 
caracteres ASCII. Esse código e bom para a lingua inglesa, mas nao tao bom para outros idiomas. O trancćs preci- 
sa de acentos (por cxcmplo. syałmeY, o alcmao precisa de sinais diacnticos (por excmplo, fiir) c assim por diante. 
Algumas linguas curopćias tćm ccrtas letras que nao se cncontnun no ASCII, tais como a aJcma (3 c a dinamarquc- 
sa tb. Alguns idiomas tem alfabetos iniciramente diferentes (por cxemplo. russo e arabe). c algumas poucus linguas 
nao tćm alfabeto aigum (por cxcmplo. a chinesa). Como os computadorcs se espalharam pelos quatro cantos do 
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mundo e como os fabricantcs dc software quercm vender produtos cm paiscs ondc a maioria dos usuarios niło fala 
ingles. ć preciso urn novo eonjunlo dc caractcrcs. 

A primcira tcntativa de ampiiar o ASCII foi o IS 646. quc acrcscentou mais 128 caracteres ao ASCII, trans- 
formando-o em urn código de 8 bits denominado Latin-1. A maioria dos caracteres adicionais eram Iciras lali- 
nas com accnios c sinais diacrfticos. A próxima tentativa foi o IS 88S9, quc introduziu o conceito de urna pdgi 
na dc código. um eonjunlo de 2S6 caracteres para um idioma particular ou grupo de idiotnas. O IS 8859-1 e 
Latin-I. O IS 8859-2 trata dos idiomas eslavos baseados no latim (por exemplo, checo, polones e htinguro). O 
IS 8859-3 conuSm os caracteres nccessarios para os idiomas turco, tnalles. esperanto, galego e assim por dian¬ 
ie. O problemu da abordagem da pagina de código ć que o software tern dc manier controle da nagina em quc 
-•sta; e impossfvel misturar idiomas nas pdginus o o esquema nao cobrc a lingua japonesa nem a chinesa. 

Um grapo de cmprcsas de computadores rcsolveu esse problemu formando um consórcio para criar um novo 
sistema. denominado UNICODE, e transformundo-o em um Padrao Interaacional (IS 10646). Agora o UNICODE 
& suportado por algumas linguagens de programaęao (por excmplo, Java). alguns sistemas operucionais (por excm- 
plo. Windows XP) c muilas aplicaęóes. E provdvcl quc sera progrcssivamcntc aceito 4 medida que a indtistria de 
computadores se toma global. 

A ideia que fundamenta o UNICODE ć designar a cada caractere c slmbolo um valor unico de 16 bits. deno¬ 
minado ponto de código. Nao sao usados caracteres multibytes nem scquencias de escapc. Slmbolos de 16 bits sim- 
plificam a produęao de softwares. 

Com slmbolos dc 16 bits, o UNICODE tern 65.536 pontos de código. Visto que todos os idiomas do mundo 
usam cerca dc 2(X).(XX) slmbolos. os pornos dc código sao um reeurso escasso quc dcve ser olocado com grandę cui- 
dado. Cerca dc metade dos pontos dc código jd forum ulocados, e o consórcio UNICODE estd sempre estudando 
propostas para utilizar o restante. Para acclcrar a accitaęao do UNICODE, o consórcio tcve a brilhante idćia de usar 
Latin-1 como pontos de código 0 a 255. o que facilita a conversao entre ASCII e UNICODE. Para cvilar desperdi- 
ęar pontos de código, cada sina! diacrilico tern scu própno ponto de código. Cubc ao software combinar sinais dia¬ 
crfticos com scus vi/.inhos para form ar novos caracteres. 

O espaęo do ponto de código e dividido em blocos, cada um deles e um mulliplo de 16 pontos de código. Cuda 
alfabeto importantc em UNICODE tern urna seqiiencia de zonas consecutivas. Alguns exemplos (c o mimero dc 
pontos dc código ulocados) sao latim (336), grego (144), cirilico (256), armenio (96). hebmico (112), dcvandguri 
(128), gurmuqui (128), orid (128), tclugu (128), e kannada (128). Notę que cada um desses idiomas reccbeu um 
mimero maior de pontos de código do quc o mimero dc letras quc possui. Essa opęao foi escolhidu em parte por- 
que muitos idiomas tern vdrias fonnas para cada letra. Por excmplo. cada letra em inglćs tem duas formas — mintis- 
cula c MAIUSCULA. Alguns idiomas tem tres ou mais formas, possivclmcntc dependendo de a letra es tar no ini- 
cio. no meio ou no lina! de urna palavra. 

Alćm desses alfabetos. forum designados pontos de código para sinais diacrfticos (112), sinais de pontuaędo 
(112), (ndices inferiorcs c superiores (48), simbolos monctdrios (48). slmbolos mutematicos (256). fonnas geome- 
tricas (96) e sinais variados ( dingbats ) (192). 

Depois desses vćm os slmbolos neccssarios para as Itnguas chinesa, japonesa e eoreana. Primeiro ha 1.024 
slmbolos fonćticos (por excmplo, katakana c bopomofo) e. em seguida, os idcógrafos han unificados (20.992) usa¬ 
dos cm ehinćs c juponćs c as sllabas hangul do idioma coreuno (11.156). 

Para pennitir quc os usuarios invcntem caracteres especiais para finalidades especiais, 6.400 pontos de códi¬ 
go forum designados para uso local. 

Embora o UNICODE rcso!va muitos probleinas associados com a intcmacionalizaęao. ele nao rcsoivc 
(nem tema resolver) todos os problemas do mundo. Por cxetnplo. cnquanto o alfabeto lalino estd em ordcm alfa- 
betica. os idcogramas han nao estao na onlcm do diciondrio. Por conseqiiencia, um programu em ingles pode 
procurar rai e dog em ordem alfabetica simplesmente comparando o valor UNICODE dc scu primeiro caracie 
rc. Um programu em juponćs prccisa dc tahclus cxtemus para interpretar qual dos dois slmbolos vem antes do 
oulro no diciondrio. 

Urna outra qucsiao e que surgem novas puluvrus o tempo todo. Hu 50 unos mnguem taluva de applcts. cibcrcs- 
paęo. gigabytes, lasers. modens. smileys ou vidcotcipcs. Acrescentar novas pulavrus em ingles nao requer novos 
pontos de código. mas adiciond-las em japones requer. Alćm dc novas puluvnis tecnicas. ha urna demanda paru udi 
cionar no mlnimo 20.000 novos nomes de pessous c lugares (a maioria ehineses). Os cegos acham quc o braille 
deveria estar prcsentc e grapos dc interesse especiul de todos os tipos qucrcm o que acham quc sao pontos de códi¬ 
go a quc tem dircilo. O consórcio UNICODE estuda e decide todas as novas propostas. 

O UNICODE usa o mesmo ponto de código para caracteres que purcccm qua.se idćnticos mas tem significa- 
dos difcrcntcs ou sdo escritos dc mancira ligeiramente diferente cm japones e chinćs (como se proccssadorcs de 
tcxto em inglćs sempre escrcvesscm hlue como hlew, por que tćm o mesmo som). Ha quem considerc isso urna oti- 
mizaeao para oconomizar pontos de código cscassos; outros o veem como imperialismo cultund anglo-saxdo (e 
vocć acha quc designar 16 bits para caractcrcs ndo foi urna dccisdo muito poi (lica?). 

Para piorar as coisas. urn diciondrio japones complcto tem 50.000 kanji (excluindo nomes), portanto. ć pre- 
eiso escolhcr os 20.992 pontos de código disponlvcis para os idcogramas han. Nem todos os japoneses acham 
que um consórcio dc fabricantcs de computadores. mesmo que alguns deles sejum japoneses, ć o forum ideał para 
fazer cssus escolhas. 
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i 2.5 Resumo m 

Sistemas de computadores sao compostos por trćs tipos dc componentcs: processadorcs, memórias e disposi- 
tivos dc E/S. A tareta de urn proccssudor e buscar instruęóes. unia por vez, cm urna memória, decodilica-las e exe- 
euta-las. O ciclo busca-decodiiicaę3o-exeeuęao pode ser descrito como um algoriuno e. na verdade, as vezcs de ć 
esecutado por um interpretador de software que roda em um nfvel mais baixo. Para ganhar velocidadc, muisos com¬ 
putadores agora tćm um ou mais pipelincs (paralciismo) ou tern um projeto superescalar com multiplas unidades 
funeionars que funcionam cm paralelo. 

Sistemas com vanos processadores sao cada vez mais comuns. Computadores paralelos induera processado- 
res mamciais. nos quais a mesma operaęao e efetuada sobrc multiplos conjuntos dc dados ao mesmo tempo, mul- 
tiproccssadorcs. nos quais viirias CPUs comparilham urna memória cm comum, c multicomputadores. nos quais 
cada um dos vurius computadores tern sua própna memória mas sc comunicam por transmissao de mensagens. 

Memórias podcm ser catcgorizadas como primarias ou secundirias. A memória primaria ć usada para conter 
o programu que es ta sendo execuiado no momento. Seu tempo dc acesso <5 curto — algumas poucas dezenas de 
nanossegundos. no maximo — e independe do endereęo quc esta sendo aeessado. Caches reduzem ainda mais 
esse tempo de acesso. Algumas memórias sao equipadas com códigos de corrcędo de erros para aprimorar a 
confiabilidade. 

Memórias sccundiirias. ao contrdrio, t£m tempos de acesso muito mais longos (milissegundos ou mais) e 
dependent da localizaęao dos dados que estao sendo lidos ou escritos. Fitas, discos magneticos e discos ótiens sao 
as memórias secunddrias mais comuns. Ha inuitas variedadcs de discos magmSticos, incluindo discos flexfveis, dis¬ 
cos Winchester, discos IDE, discos SCSI c RAIDs. Entre os discos óticos figuram CD-ROMs, CD-Rs e DVDs. 

Dispositivos de E/S sao usados para transferu - informaęóes para dentro c para fora do computador. Estao 
concctados ao proccssador e 3 memória por um ou mais barramentos. Alguns cxcmp!os sao terminais, mouses. 
impressoras e modens. A tnaioria dos dispositivos de E/S usa o código dc caractcres ASCII, embora o UNICODE 
esteju ganhando rapida aceitaędo a medida que a indóstria dc computadores sc toma global. 


Problemas 

1. Considere a operaęao de urna maquina que tenha o caminho de dados da Figura 2.2. Suponha que canegar os 
registradores de entrada ila ALU leve 5 ns, executar a ALU demon: 10 ns c armazenar o rcsultado dc volta no 
registrador dc rascunho tome 5 ns. Qual e o niimero maximo de MIPS de que essa mdquina e capaz na ausćn- 
cia dc paralciismo (pipelining)? 

2. Qual ó a tinalidade da etiipa 2 na lista da Seęao 2.1.2? O que aconteccria se essa etapa 1'osse omitida? 

3. No computador 1. o tempo de exccuęao de todas as instruęóes e 10 ns. No computailor 2. o tempo de cxccu- 
ęao e dc 5 ns. Voce potle aftrmar com ccrtcza que o computador 2 ć mais rapido? Discuta sua resposta. 

4. Imagine que voce esta projetando um computador de um só chip para um sistema embutido. O chip contera 
roda sua memória e cxccutara a mesma velocidade da CPU sem pcnalidade de acesso. Examine cada um dos 
princfpios discutidos na SeęSo 2.1.4 e diga por que sao tao importantes (admitindo que ainda se deseja alto 
desempenho). 

5. Um certo processo de computnęao tern alto gruu de scqilcnciamento — isto ć. cada etapa dependc da etapa que 
a precede. O que seria mais apropriado para esse processo: um processador matricial ou um processador com 
paralelismo? Expliquc. 

6. Para competir com a prensa impressora recentemente uwentada, um mostciro medieval dccidiu praduzir em 
massa livros escritos em papci reunindo um vasto niimero de cscribas cm urna grandę sala. O superior do mos¬ 
tciro entao dilaria a pritneira puluvra do livro u ser produzido e lodos os cscribas a escruveriam. Em seguida 
ele dilariu a segunda pulavra c todos os cscribas a escreveriam. Esse processo seria repetido ate quc o livro 
intcim fosse lido e copiado. Com qual dos sistemas dc pmcessador paralelo discutidos na Seęao 2.1.6 esse sis¬ 
tema e mais purccido? 

7. A medida quc desccmos na hicrarquia dc memória dc cinco nivcis discutida no tcxto. o tempo de acesso 
aumenta. Faęa urna estimativa juzoavcl da razao entre o tempo de acesso por disco ótico e o tempo de acesso 
ao registrador da memória. Admita que o disco ja esta no respectivo drivc. 

8 . Sociólogos podem obter trćs respostas posstveis para urna tipica pergunta dc levantamcnto como “Vocć acre- 
dita em Papai Noel?" — ou seja: sim. niio. nenhuma opiniao. Tendo isso em mente. a Sociomagnctic Computer 
Company dccidiu construir um computador para proccssar os dados do levantamento. Esse computador tern 
umu memória trinaria, isto e. cada byte (tryle?) consiste em 8 trits, sendo que um trit contćm um 0, um I ou 
um 2. Quantos trits siło necessarios para conter um mimem de 6 bits? Escreva urna exprcssao para o niimero 
de trits ncccssario para conter n bits. 

9. Calcule a taxa de dados do olho humano usando as seguintes informaęóes. O campo visual consiste em cerca 
de 10° elementos (pixels). Cada pixel pode ser reduzido a urna sobreposięSo das trćs corcs primarias, cada urna 
com 64 intensidades. A rcsoluęao temporal e de 100 ms. 

10. Calcule a taxa de dados do ouvido humano usando as seguintes informaęóes. As pessoas podem ouvir frcqiien- 
cias de ate 22 kHz. Para capturar toda a informaęao em um sinal sonom a 22 kHz, ć preciso amostrar o som a 
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dua-s vezes aqucla freqlićncia. isto e, u 44 kHz. Uma amostra de 16 bits provavelmcnte e suftcientc para cap- 
turar a maioria das informacócs auditivas (isto ć. o ouvido nao pode dłstinguir mais do que 65.535 nivcis de 
intensidade). 

11. As informaęóes gcneticas de todos os scres vivcntes estao codiłicadas como moleculas de DNA. Uma molć- 
cula de DNA e uma scqii£ncia linear dos quatro nucleotfdcos bsisicos: A.C.Gc T. O genoma hu mano contćm 
apmximadamente 3 X I () g nucleotfdeos na forma de aproximadamente 30.000 genes. Qual e a capaeidade lotal 
de informaęóes (cm bits) do genoma humano? Qual e a capaeidade maxima de informaęóes (em bits) do gene 
mćdio? 

12. Um certo computador pode ser equipado com 268.435.456 bytes de memória. Por quc um labricante escolhe- 
ria tal mimem peculiar. em vez de um mimem facil de lembrar. como 250.000.000? 

13. lnvente um código dc Hamming dc paridadc par de 7 bits para os dfgitos 0 a 9 

14. lnventc um código para os dfgitos 0 a 9 cuja distancia Hamming seja 2. 

15. Em um código dc Hamming, alguns bits sao ‘dcspcrdięados’ no sentido de que sao usados para verificaęau, e 
nao para informaęao. Qual e a porcentagcm de bits dcsperdięados para mensagcns cujo comprimento total 
(dados + bits de verificaęao) ć 2" - 1? Avulie essa expressao numcricamcnte para valores de n de 3 a 10. 

16. O disco ilustrado na Figura 2.17 tern 1.024 sctorcs/trilha e uma taxa dc rotaęao de 7.200 RPM. Qual e u taxa 
dc transfercnciu sustcntada do disco sobie uma trilha? 

17. Um computador tern um barramento com tempo de ciclo de 5 ns, durnntc o qual elc pode ler ou escrevcr uma 
palavra de 32 bits da memória. O computador tern um disco Ultra4-SCSl que usa o barramento e exccuta a 
160 Mbytes/s. A CPU normalnienie busca e cxccuta uma instruęao dc 32 bits a cada 1 ns. De quanto ć a desa- 
celcraęito da CPU causada pelo disco? 

18. Imagine que vocS esteja cscrevendo a parte do gerenciamento dc disco de um sistema opcracional. Vocć rcprc- 
senta o disco logicamcnle como uma seqllćncia dc blocos dcsdc 0 no interior atć algum maximo no cxterior. 
A medida que siio criados arquivos. voce tern de alocar setores livrcs. Voce poderia lazer isso de fora para den- 
tro ou de dentro para fora. A estratógia que vocfi escolhe tern importilncia? Explique sua resposta. 

19. Quanto tempo lcva para ler um disco com 10.000 cilindros. cada um contendo quatro tnlhas dc 2.048 setores? 
Primciro, todos os setores da trilha 0 devcm ser lidos iniciando no setor 0, cm seguida. todos os setores da tri¬ 
lha I iniciando no setor 0 e assiin por diantc. O tempo de rotaęao £ 10 ms. e uma busca leva 1 ms entre cilin¬ 
dros adjaccnles c 20 ms para o piór caso. As passagens de uma trilha para outra de um eilindro podem ser fci- 
las instanlaneamcntc. 

20 . O RAID nfvel 3 ć capaz de corrigir erros dc um só bit usando apenas um drive de paridade. Entao. para que 
scrvc o RAID nfvel 2? Afinai, ele só pode corrigir um erro e prccisa de mais drives para fazę-to. 

21 . Qual £ a exatu capaeidade de dados (em bytes) dc um CD-ROM modo 2 que contcnha os 80 minutos dc mfdia 
que agora sito u padrito? Qual ii a capaeidade para dados de usudrio em modo 1? 

22 . Para gravar um CD-R. o laser dcvc pulsar entre ligado c desligado a alta vclocidadc. Ao executar em vcloci- 
dade 10x em modo 1. qual £ a duraęao do pulso em nanossegundos? 

23 . Para poder colocar 133 minutos de vfdeo cm um DVD de um lado só e em uma unica camada. e preciso uma 
razodvel comprcssao. Calculc o fator de compressao requcrido. Admita resoluęao de iniagcm dc 720 X 480 
pixcls com cor de 24 bits e imagens apresentadas a 30 quadros/s. 

24 . O Blu-Ray transferc dados a 4,5 MB/s e tem uma capaeidade de 25 GB. Quanto tempo leva para ler um disco 
inteiro? 

25 . A taxa de transfercncia entre uma CPU c sua memória associada e ordens de grandeza mais alta do que a taxa 
de transferfincia mecanica dc E/S. Como esse descquilfbrio pode causar incficiencias? Como elas podem ser 
atenuadas? 

26 . Um fabricantc anuncia quc seu terminal de mapas de bits dc cor pode cxibir 2~ 4 cores diferentes. Porem, o 
hardware só tem I byte para cada pixel. Como e possfvel fazer isso? 

27. Um terminal de mapa de bits tem um visor dc 1.600 X 1.200. Ele ć rcdcsenhudo 75 vczes por segundo. Qual 
e a duraęao do pulso corrcspondente a um pixcl? 

28 . Usando uma certa fonie, uma impressoru monocromatica a laser pode imprtmir 50 linhas de 80 caractcres por 
pdgina. O caructcrc medio ocupa um quadrado dc 2 mm x 2 mm. dos quais cerca dc 25% ć toner. O resto ć 
branco. A camada dc toner tem 25 micra dc espessura. O cartueho dc toner da imprcssora mede 25 X 8 X 2 cm. 
Quantas paginas podem ser impressas com um cartueho de toner? 

29 . Quando um texto ASCII dc paridade impar e transinitido assineronamente a uma taxa dc 5.600 curactercs por 
segundo, por um modem de 56.000 bps, qual porcentagcm dos bits recebidos eon tern dados (ao contnirio de 
controlc)? 

30 . A Hi-Fi Modem Company acabou de projetar um novo modem de modulaęao era treqilćncia quc usa 64 fre- 
qiiencias cm vcz de apenas 2. Cada segundo ć dividido em ii inicrvulos dc tempo iguais, cada um deles con¬ 
tendo um dos 64 tons possfvcis. Quuntos bits por segundo esse modem pode irunsmilir usando traasmissio sfn- 
crona? 

31. Um usuario dc Internet contralou um servięo ADSL de 2 Mbps. O vizinho dcle preferiu um servięo de Internet 
por eaho que tern uma largura de banda compartilhada dc 12 MHz. O csquema de modulaęao em uso e QAM- 
64. Hii n rcsidencias ligadas ao cabo. cada uma com um computador. Uma fraęao/ desses computadores esta 



on-line a qualquer dado instantc. Sob quais condięócs o usuario do cabo obtera mclhor scrvięo do que o usua- P*< 

rioADSL? P* 

32. I 'ma camera digital letn u ma rcsoluęao dc 3.000 X 2.000 pixels, com 3 bytes/pixel para cor RGB O fabrican- 
tc da camera quer gravar urna imagem JPEG a um fator de comprcssao 5x na memória rapida cm 2s. Qual ć a 
taxa de dados rcqucrida? 

33. Uma camera digital de primeira linha tern um sensor com 16 milhóes de pixc!s. cada qual cum 3 bytes/pixel. 

Quantas lotos podem ser urmazcnadas cm um cartiio dc memória rapida de 1 GB se o fator de comprcssao for 
5x? Admita quc um I GB significa 2 30 bytes. 

34. Estime quantos caracteres, incluindo espaęos, contem um livro tfpico sobre cićncia da computai;ao. Quantos 
bits siło neccssiirios para codiftear um !ivro em ASCII com pandude? Quantos CD-ROMs sdo necessarios para 
armazenar uma bibiiotcca dc ciencia da computaęiio com 10.000 livros? Quantos DVDs de dupla luce. dupla 
camuda. sao necessarios para a mesma bibiiotcca? 

35. Reescreva um proccdimemo hamming ( ascii . encoded) para converter os 7 bits de baixa ordem de ascii cm 
urna palavra de código de 11 bits urmazcnada em encoded. 

36. Escrcva uma funcao distance (codę. n. k) que recebc um codę matricial de n caracteres de k bits cada como 
entrada e rctoma a distilneia do conjunio de caracteres como salda. 
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N a parte interior da hicrnrquia da Figura 1.2 encontramos o m'vcl lógico digital. o rcal hardware do computador. 
Neste capftulo exuminaremos muitos aspectos da lógica digital, como urn fundamento para o estudo de niveis mais 
altos era capitulos subseqiientcs. Esse assunto estd no limiar entre a ciencia da computaęao e a engenharia cłćtri- 
ea. mas o materiał e independentc. portanto nao ha neccssidade de experiencia previa de hardware nem de engenharia 
para entcnde-lo. 

Os clementos basicos quc fazem parte de todos os compuladores digitais sao surpreendentemente siraples. Iniciarcmos 
nosso estudo examinando esses elcmentos basicos e tamhem a algebra especial de dois valores (dlgcbra booleana) usada para 
analisa-los. Em seguida e.\aminarcmos alguns circuitos fundumentais que podem ser construidos usando simples combinaęóes 
de portas, entre clcs os circuitos quc efetuam a ariimćtica. O tópico que vem depois desse e o modo como cssas portas podem 
ser combinadas para armazenar informaęóes, isto e, como as memórias sao organizadas. Logo após, chegamos a questiio das 
CPUs e. em especial. dc como e a interfaco entre CPUs dc um sti chip, a inemóriu c os dispositivos pcrifericos. Mais adiantc 
neste capttulo serao estudados divcrsos exemplos da industna de compuladores. 

3.1 Portas e algebra booleana 

Circuitos digitais podem ser construidos com um pequcno ntimero de elementos primitivos combinando-os de inumeras 
maneiras. Nas seęóes seguintes dcscreveremos esses elementos primitivos, mostraremos como eles podem ser combinados e 
introduzircmos urna poderosa tćenica malematica quc pode ser usada para analisar scu comportamcnto. 

3.1.1 Portas 

Um circuito digital ć aquelc em que estao presentes somentc dois valorcs lógicos. O nonnal e quc um sinal entre 0 e 1 
voll representc um valor (por cxcmplo. 0 binario) e um sinal entre 2 c 5 volts represente o outro valor (por exemplo, I bind- 
rio). Nao saO pemiitidas tcnsócs font dessas duas faixas. Minusculos dispositivos eletrónicos denominados portas ( gates > 
podem calcular varias funęócs desses sinais de dois valorcs. Essas portas formam a base do hardware sobre a qual todos os 
compuladores digitais sao construidos. 

Os detalhes do funcionamenlo interno dessas portas estSo fora do cscopo deste livro. pois pertencem ao nivel de dlspo- 
sitivo quc esta abaixo do nivel 0. Nao obstanie, agora vamos divagar um pouco c e.saminar rapidumentc a ideia basiea. quc nao 
e diffcil. No fundo, loda a lógica digital moderna se apóia no lato de que um transistor pode funcionar como um comutador 
binario muito rapido. Na Figura LI (a) mostramos um transistor bipolar — representado pclo circulo — inserido cm unt cir- 
cuito simples. Esse transistor tern trćs conexóes cofn o mundo cxtcrior: o eoletur. a base e o emissor. Quando a voltagem de 
entroda. V,„ esta abaixo de um certo valor critico, o transistor dcsliga e age como urna resistencia intinita. lsso faz com que a 
saida do circuito, V iml , assuma um vulor próximo a V, ,, urna voltagem regulada extemamenie. em gcral +5 volts para esse lipo 
dc transistor. Quando V m exccde o valor critico. o transistor liga e age como um fio. fazendo com quc V'„„ lique conectado com 
a terra (por comrcnęao. 0 volt). 

O importantc e notar que. quitndo V M i baixa. V iml ć alta. c vicc-versa. Assim. esse circuito e um inversor, que convcrte 
um 0 lógico em um I lógico e um I lógico em um 0 lógico. O resislor (linha serrilhada) ć necessirio para limitar a quanlida- 
de de corrcntc drenada pelo transistor. de modo que cle nao queime. O tempo tfpico rcqucrido para passar de um estado para 
outro ć de alguns nanossegundos. 
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Na Figura 3. l(b) dois transistores cstao ligados om sćrie. Se ambas, F, e V z , forem altas, ambos os iransisto- 
res conduzirao e V„ M , caird. Sc qualquer das eulradas for baixa, o transistor onrrespondente so desligura e a safda 
sera alta. Em outras paJavras, V IMI seni buixa se, e somente sc, ambas. V, c V 2 . forem altas. 

Na Figura 3.l(c) os dois transistores estao ligados cm paralelo em vez de cm serie. Nessa eoniiguraęao, se 
qualquer das entradas for alta, o transistor correspondcnte ligard e concctara a safda com a terra. Se ambas as entra- 
das forem baixas. a safda permanecerd alta. 

Esses trcs eircuitos. ou seus equivalemcs, forream as trcs ponas mais simples e sdo denominadas portas NOT. 
NAND e NOR, rcspectivamenlc. Portas NOT costumam ser denominadas inversoras: usaremos os dois termos indife- 
rentementc. Se agora adotarmos a eonsenęao dc que 'alta' (V C1 . volts) e urn 1 lógico c ’baixa' i terra) 6 um 0 lógico. 
podcmos expressar o valor de safda como uma runcao dos valorcs dc enlrada. Os sfmboios usados para rcpresentar 
cssas portas sao mostrados nas figuras 3.2(a) a (c) junto com o comportamenlo funcional de cada circuilo. Nessas 
liguras. Ac B sao entradas e X i a safda. Cada linha especifica a safda para uma combinaędo diferentc das entradas. 

Sc o sinal de safda da Figura 3.1 (b) for alimentado em um circuito invcrsor, oblemos um outro circuito com o 
lnverso exato da porta NAND. a saber, um circuito cuja safdu if I se, e somente sc. ambas as entradas forem 1. Essc 
circuito ć denominado uma porta AND; seu stmbolo e dcscrięSo funcional siło dados na Figura 3.2(d). Dc modo 
semelhantc. a porta NOR pode ser conectada a um invcrsor para produ/.ir um circuito cuja safda ć 1 sc quaisquer das 
safdas, ou ambas. for um 1, mas 0 sc ambas as entradas forem 0. O sfmbolo e a descrięao funcional desse circuito. 
denominado uma porta OR. sao dados na Figura 3.2(e). Os pequenos efreulos usados como parte dos sfmboios para 
o invcrsor. porta NAND e porta NOR, siło denominados bolhas de inversao. Tambem sao usadas cm outros contex- 
tos para indicar um sinal invcrtido. 

As cinco portas da Figura 3.2 siło os principais elementos dc construęao do nfvel lógico digital. A discussao 
prccedente deve ter deixado claro que as portas NAND e NOR rcquerem dois transistores cada ao passo que as por¬ 
tas AND c OR requerem trcs cada. Por cssa raziło, muitos computadorcs sao baseados em portas NAND e NOR em 
vez das portas mais conhccidas, AND e OR. (Na prdtica todas as portas sao implementadas de modo um pouco dife- 
rente, mas as NAND e NOR ainda siło mais simples do que as AND e OR.) A propósito, vale a pena observar que as 
portas podcm perfeitamente ter mais dc duas entradas. Em princfpio. uma porta NAND. por excmplo, pode ter, arbi- 
trariamente, muitos entradas, mas na pnitica nao e comum encontrar mais de oito entradas. 

Embora a questao do modo como sao construfdas as portas pertenęa ao nfvel do dispositivo. goslarfomos de 
mencionar as principais famflias dc tccnologia de fabricaęao porquc elas siło citadas com muiła freąiiencia. As duas 
lecnologias principais sao a bipolur e u MOS (Metal Oxidc Scmiconductor — scmicondutor dc óxido metalico). 
Os dois principais lipos bipolares siło a TTL (Transistor Transistor Logic — lógica transisUir-lraasisior), que liii 
muitos anos e o burro de carga da eletrómca digital. e a ECI. (Emitter-Coupled Logic — lógica de emissor acopla- 
doi. que cm usada quando se requeria uma operaęao de ve!ocidade muito alta. Para eircuitos de computador. o que 
predomma agora e a tecnologia. 

Portas MOS siło mais lentas do que as TTL e ECL. mas exigcm bem rnenos energia clćtriea e ocupani um espa- 
ęo muito inenor, portanto. um grandę mimem dessas portas pode ser compuctado e cmpacotado. Hu muitas variedades 
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O de MOS, enire elas PMOS, NMOS e CMOS. Embora os modus de construędo dos iransistores MOS e dos transis- 

lores bipolares scjam difcrcntes. sua capacidade de funcionar como comutadorcs cictrónicos e a mesma. A maioria 
das CPUs e memórias modemas usa tecnologia CMOS. que funciona a +3,3 volts. E isso e ludo o que diremas sobre 
o nivel de dispositivo. O leitor inieressado cni conlinuar o cstudo desse nfvd devc eonsultar as leituras sugeridas no 
Capitulo 9. 

3.1.2 Algebra booleana 

Para deserever os circuilos que pudom ser eonstnndos combinando portas. e nccessario um novo lipo de dlgc- 
bra. no qual variavcis o funęócs pudem assumir somente os valores 0 e I. Essa algebra ć denominada algebra boo¬ 
leana. nomc que sc dcve a seu dcscobridor, o maleinatico inglós Georgc Boole (1815-1864). Em termos cstrilos. 
ostamos nos referindo a um tipo espceifico dc algebra booleana. urna algebra dc comutaęńo. mas o termo 'alge¬ 
bra booleana' e ido amplamente usado no lugar de 'dlgobra dc comutaęao' que nao faremos a dislinęao. 

Exatamente como ha funęócs na algebra 'ordimiria' (isto e, a algebra do colcgial). tam be m ha funęócs na illgc- 
bra booleana. Urna funęao booleana tem urna ou mais varidvcis de entrada e produz um resultado que dependc 
somente dos valores dcss&s variaveis. Urna funędo simplcs./, pode ser dcłinida ao sc dizer que/(A) e I sc A for 0 
cfiA) 6 0 se A for I. Essa funędo 6 a funędo NOT da Figura 3.2(a). 

Como urna funędo booleana de n varidveis tern só 2” combinaęóes possfveis de valores de entrada a funędo 
pode ser completamente dcscrita por urna tabela com 2" linhas. na qual cada linha informa o valor da funędo para 
urna combinaęao difcrcnle dc valores de entrada. Essa tabela <5 denominada tubclu-verdudc. As tabelas da Figura 

3.2 sao todus exemplos dc tubelas-verdadc. Se concordarmos cm sempre listar as linhas de urna tabela-vcrdade em 
ordem numćrica (basc 2), isto ć. para duas variaveis na ordcm 00, 01, 10 c 11, a funędo pode ser completamente 
dcscrita pelo numeru binario de 2" bits obtido pela leitura vcrtical da coluna dc resultado da tabela-vcrdade. 

Assim. NAND e 1110, NOR <5 1000, AND e 0001 e OR <5 0111. E óbvio quc só cxistcm 16 funęoes boolcanas dc 
duas varidveis. corrcspondentes as 16 possivcis corrcntes dc 4 bits resultantes. Ao contnirio. a algebra ordinaria tent 
um ntimero inlinito de funędes de duas variaveis, nenhuma das quais pode ser dcscrita por meio de urna tabela de 
saidas pora todas as entradas possiveis porque cada variavel pode assumir qualqucr valor dc um numero inlinito dc 
valorcs possfvcis. 

A Figura 3.3(a) mostra a tabela-verdade para urna funęao booleana de trćs variaveis: M = f(A . B, C). Essa 
funęao ć a funęao de lógica majoritaria, isto ć, ela ć 0 se a maioria de suas entradas for 0. e 1 se a maioria de suas 
entradas for I. Embora qualqucr funęao booleana possa ser completamente espccilicada dada sua tabela-vcrdade, ii 
medida quc aumenta o numero de variaveis essa notaęao lica cada vez mais trabalhosa. Portanto, costuma-se usar 
urna outra notaęao no lugar dela. 

Para vcr como ocorre essa outra notaęao, obscrve que qualquer funęao booleana pode ser cspecificada ao sc dizer 
quais combinaęóes de variiivcis de entrada dao um valor de salda igual a 1. Para a funędo da Figura 3.3(aj, hii quatro 
combinaędcs de variiveis de entrada que fazem com que M seja I. Por convcnęao, marcuremos a variavel de entrada 
com uma barra para indicar que seu valor e invertido. A ausćncia dc uma barra significa que o valor nao e invcrtido. 


Fiuura 3.3 

|a| Tabeia-verdade para a 
funęao majontana de tres 



(a) 


ABC ABC 







Alem iłisso. usarcmos multiplicaęao implfcita ou um ponto para rcpresentar a funęao booleana AND c + para repre- 
sentar a funęao booleana OR. Assitn. por exemplo. ABC assurae o valor 1 somente quando A=lefl=OeC=l 
Alem disso, AB+ BĆ o 1 somenle quando (.4 = 1 e B = 0) ou (fi = I e C = 0). As quairo linhas da Figura 3.3(a) que 
produzem bits I na salda sao: ABC, ABC, ABC e ABC. A funęao, M, e verdadeiru (isto e, 1) se qualqucr urna des- 
sas quatro condięóes for verdadeira; daf. podemos escrever 

M = ABC + ABC + ABC + ABC 

ani modo compacro de dar a tabela-vcrdade. Desse modo. urna funęao de n variaveis pode ser descrita como se desse 
urna ‘soma’ de no m&tirno 2“ termos de produtos’ de n varias'eis. Essa formulaęao e de .special importaneia, como 
veremos cm breve. porque lcva diretamente a uma implemenlaęao da funęao que usa portas padronizadas. 

E importante ter em mente a distinęao entrc uma funęao booleana abstrata e sua implemenlaęao por um cir- 
cuito eletronico. Uma funęao booleana consiste em variaveis. como A, B e C. e operadores booleanos. como AND. 
OR e NOT. Uma funęao booleana e descrita por uma tabela-verdade ou por arna funęao booleana como 

F = ABC + ABC 

Uma funęao booleana pode ser implementada por um circuito cletrónico (muitas vczes de muitos modos dife- 
rentes) que usa sinais que representam as varidveis dc entrada e safda e portas como AND, OR e NOT. Em geral 
usaremos a notaęao AND. OR e NOT ąuando nos referirmos aos operadores booleanos, e AND. OR e NOT quando 
nos referirmos a portas, mas essa notaęao freqiientementc e ambigua. 

3.1.3 Implementacjo de funęoes booleanas 

Como jd meneionamos. a formulaęao de uma funęao booleana como uma soma de atć 2" produtos leva a uma 
posswel implementaęao. Usando a Figura 3.3 como excmplo, podemos ver como essa implementaęao e cfctuada. 
Na Figura 3.3(b), as cntradas, .4, B e C sao mostradas na cxtremidade esquerda, e a funęao de safda, M, e mosuuda 
na extremidade direila. Como sao nceessdrios complementos (inversos) das varidveis de entrada, elcs sao gerados 
tomando as entradas e passando-as pelos inversores rotulados 1. 2 e 3. 

Para evitar atravanear a figura, desenhamos seis linhas verticais, tres das quais conectadas as varidvcis dc entra¬ 
da c tres conectadas aos complementos dessas variaveis. Essas linhas oferecera uma fonie conveniente para as entra¬ 
das das portas subscqiientes. Por exemplo, as portas 5, 6 c 7 usam /i como uma entrada. Em um circuito real, essas 
portas provavelmcnte estariam ligadas diretamente a A sem usar nenhum tio ‘vertical’ intermediano. 

O circuito conlera quatro portas AND. uma para cuda termo da cquaęiio para M (isto e, uma para cada linha 
da tabela-verdade que tenha um bit l na eoluna de rcsullado). Cada porta AND ealcula uma linha da tabela-ver- 
dade. como indicado. Por lim. todos os termos produtos aiimentam a porta lógica OR para obter o resultado finał, 

O circuito da Figura 3.3(b) usa uma coiwenęao que utilizaremos repetidas vezes neste livro: quando duas 
linhas se cruzam. nao h<i nenhuma ligaęao implfcita a menos que haja um ponto negro bem_visfvel na interseęiio. 
Por exemplo, a safda da porta 3 cruza todas as seis linhas verticais mas esta ligada apenas a C. Ii bom iembrar que 
alguns autores usam outras convenęóes. 

Pclo exemplo da Figura 3.3 deve ficar claro como implemenuir um circuito para qualqucr funęao booleana: 

1. Escreva a tabela-verdade para a funęao. 

2 . Pnwidencic inversorcs para gerar o complemento de cada entrada. 

3. Desenhe uma porta AND para cada termo que tenha um I na eoluna de resultado. 

4. Ligue as portas AND as entradas adequadas. 

s. Alimente a safda de todas as portas AND a uma porta OR. 

Embora tenhamos mostrado como qualquer funęao booleana pode ser implementada usando portas NOT, AND 
e OR. muitas vezes e cnnvenicnte implementar circuitos usando só um lipo dc poru. Felizmente, convcner circui 
tos gerados pelo algorilmo precedente a forma NAND pura ou NOR pura e uma operaęao dircu. Para fazer essa con- 
versiio. basta que tenhamos um modo de implementar NOT. AND e OR usando um tinico tipo de porta. A linha supe¬ 
rior da Figura 3.4 mostra como todas essas tres podcm ser implcmentadas usando somente portas NAND: a filcira 
dc baixo mostra como isso pode ser feito usando apenas portas NOR. (Essas operaęóes sao dirctas, mas tam bom ha 
outras maneiras.) 

Um modo dc implementar uma funęao booleana usando somente portas NAND ou somenle portas NOR e pri- 
meiro seguir o procediinento dado adma para construf-la com NOT. AND e OR. Em seguida. substituir as portas de 
multiplas entradas por circuitos cquivalonles usando portas de duas entradas. Por cxemplo. A + B + C + D pode ser 
computada como (A + B) *■ (C + D), usando tres portas OR de duas entradas. Por lim. as portas NOT, AND e OR 
sao substitufdas pelos circuitos da Figura 3.4. 

Embora esse prucedimcnto nao resultc cm circuitos ótimos. no sentido do rnimero mfnimo dc portas. cle mos¬ 
tra que sempre ha uma soluęao viavel. Ambas as portas. NAND e NOR. stio denominadas completas porque qual- 
quer funęao booleana pode ser calculada usando quaisqucr das duas. Nenhuma outra porta tem essa propriedade. o 
que e uma outra razao por que elas costumam ser preferidas como blocos de construęao de circuitos. 
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3.1.4 Equivalencia de circuito 

Projetistas de circuitos muitas vezes tcntam rcduzir o numero dc portas em seus produtos para reduztr custo 
dc componentes, espaęo dc płaca de circuito imprcsso. consumo de energia elćtrica e assim por diante. Para redu¬ 
zir a complexidade de um circuito. em primciro lugar o projetista tern de encontrar urn outro circuito quc calcule a 
mesma 1'unęao que o original. mas eletue cssu operaęao com um numero menor dc portas (ou talvcz com portas 
mais simples. por exemplo. portas com duas entradas cm vez dc portas com qualro entradas). A algebra boolcana 
pode ser urna femamentn vaiiosa na busca de circuitos cquivaicntcs. 

Como exemplo de como a algebra booleana pode ser usada, considere o circuito e a tabela-vcrdade para AB + 
AC mosuados na Figura 3.5(a). Embora ainda nao as tenhamos disculido, muitas das regras da algebra comum tam- 
bem sao validas para a algebra booleana. Em purticular, a expressao AB + AC pode ser tntorada para A(B + C) usan- 
do a lei distributiva. A Figura 3.5(b) mostra o circuito e a tabela-verdade para A(B + Q. Como duas lunęOes siło 
cquivalentcs se. e somente se. clas tivcrcm a mesma saida para todas as entradas possivcis, e fdcil ver pelas tabclas- 
vcrdadc da Figura 3.5 que A(B + O e cquivnlcnte a AB + AC. Apcsar dessa equivalencia, o circuito da Figura 3.5(b) 
ć elarameme mcihor do quc o da Figura 3.5<a) porque contem menos portas. 

Em gcral. um pntjelista de circuitos comcęa com urna funcao booleana e entao aplica a da as leis da dlgebra 
booleana na tentativa de achar urna funęao mais simples, porem equivalente. Um circuito pode ser construido com 
base na funęao gnał. 

•O 

(■) 


Figura 3.4 

Figura 3.4 Constmęao de 
portas (a) NOT. |b| AND e |c| 
OR usando somente portas 
NAND ou somente portas 
NOR. _ 





AIB * C) 
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Figura 3.S 

Duas funęóes equivalentes. 
la| AB + AC. (b| A{B f q. 





Tabela 3.1 Algumas identidades da algebra booleana. 


. Wome 

. L • Forma AND 

Forma OR ^ 

Lei da idenddade 

1A = A 

0 + A = A 

Lei do elemento nulo 

0A = 0 

1 + A- 1 

Lei idempotente 

AA-A 

A -h A = A 

Lei do inverso 

AA»0 

A + A- 1 

Lei comutativa 

AB = BA 

A + B-B-rA 

Lei associatńra 

|AB)C = A(BC| 

|A + B| + C = A+ (B + q 

Lei distnbudva 

A + BC = (A + B|(A + q 

AiB + q = AB + AC 

Lei da absoręao 

A|A+B|=A 

A + AB-A 

Lei de DeMorgan 

AB=A*B 

A + B = AB 


Para usar essa abordagem prccisamos dc algumas idenlidadcs da algebra booleana. A Tabela 3.1 mostra algu¬ 
mas das mais importantes. E intercssanle notar que jada lei tern duas formas que sao duais urna da outra. 

Permulando AND e OR c tumbęm 0 e 1, quaisquer das formas pode ser produzida com base na outra. Tcdas 
as leis podem ser provudas com facilidadc construindo suas iabelas-verdade. Com exceęao da lei de DeMorgan, a 
lei da absoręuo, e da forma AND da lei disiribuliva. os rcsultados sao ra/.oavelmeme intuitivos. A lei de DeMorgan 
pode ser estendida para mais de duas variiiveis. por exemplo, ABC = A + B + C. 

A lei dc DeMorgan sugere urna notaęao altemativa. Na Figura 3.6(a) a forma AND 6 mostrada com a negaęoo 
indicada por bolhas de inversao tanio para entrada quanto para solda. Assim. urn porta OR com entradas invertidas 
e cquivalente a urna porta NAND. Pela Figura 3.6<b). a forma dua! da lei ue DeMorgan. dcve ficar claro quc urna 
porta NOR pode ser desenhada como urna porta AND com entradas invertidas. Negando ambas as formas da lei de 
DeMorgan. chegamos as tiguras 3.6(c) e (d). que mostram representaęóes equivalentes das portas AND e OR. 
Existem simbolos analogos para is formas de multiplas variaveis da lei de DeMorgan (por exemplo. urna porta 
NAND com n entradas se toma unia porta OR com n entradas iiwcrtidas). 

Usando as identidades da Figura 3.6 e as andlogas para portas de multiplas entradas ć facil convcrter a repre- 
sentaęao de soma de produtos de urna tabela-vcrdade para a forma NAND pura ou NOR pura. Como cxcmplo. con- 
sidere a funęao EXCLUSIVE OR (OU EXCLUSIVO) da Figura 3.7(a). O circuito-padrao da soma de produtos 
e mostrado na Figura 3.7(b). Fara convcrter para u forma NAND, as linhas que conectam a sarda das portas AND 
a entrada da porta OR devem ser redesenhadas com duas bolhas de invcrsao. como mostra a Figura 3.7(c). Por 
. firn. usando a Figura 3.6(a) chegamos d Figura 3.7(d). As variiiveis A e B pouem ser gcrada.s dc A e B usando 
portas NAND ou NOR com suas entradus interligadas. Notę que as bolhas de inversao podem ser deslocadas ii von- 
tade ao longo da linha. por cxemplo, desde as saidas das portas de entrada na Figura 3.7(d) ale as entradas da 
porta dc suida. 

Como observaęao finał cm rclaęiło a equival£nciu de circuitos. demonstrarcmos agora o surpreendente resul- 
utdo, isto e. a mesma porta ffsica pode calcular funęóes diferentes dependendo das cnnvenęóes usadas. Na Figura 
3.8(a) mostramos a saida de uma certa porta. F. para diferentes combinaęoes dc entrada. Tanio entradas quanto sai- 
das sao representadas por volts. Se adotarmos a convcnęao dc quc 0 voll e 0 lógico e 3.3 volts ou 5 volts e 1 lógi- 
co. denominada lógica positiva. obtemos a tabela-vcrdade da Figura 3.8(b), a funęao AND. Contudo, sc adotannos 
a lógica ncgatWa. na qual 0 volt e 1 lógico e 3.3 volts ou 5 volts e 0 lógico. obtemos a tuoela-verdade da Figura 
3.8(c), a funęao OR. 

Assim. a convcnęao escolhidu paru mapear voltagens para vutores lógicos e cntica. A menos que especifique- 
mos outra coisa. duqui em dianie usarcmos lógica positiva. panamo os termos / Itiyini. wrdtule e tensao alm sao 
siminimos. assim como 0 Uigico. Jiuiso e tensuo bana. 


AB - A» B A-B « AB 




3>- 

=o- 


Fujura 3.6 

Simbolos altemauvos para 
algumas portas:(a| NAND 

Ibl NOR. |c| AND. |d| OR. 


(a) 

AB a 

A + B 

(b) 

A » B » 

AB 


=o- 

(c) 


=D- 

(d) 
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3.2 Circuitos lógicos digitais basicos 

Nas seęfics anteriores vimos como implcmentar tabclas-vcrdadc c oulros circuitos simplcs usando portas indi- 
viduais. Na pnitiea, poucos circuitos sSo construidos porta por porta, cmbora houvc uma epoca em que isso era 
comuni. Hojc cm dia. os blocos dc eonstruęiło usuais sao módulos quc contćm varias portas. Nas seęóes scguintcs 
csaminarcntos csses blocos de construędo mais de perto c vcrcmos como eles podem ser construidos com base cm 
portas individuais. 

3.2.1 Circuitos integrados 

Portas niio sao fabricadas nem vcndidas indiyidualmente. mas em unidades dcnominadas circuitos integra¬ 
dos, freq(ientemente denominados ICs ou chips. Um IC e um pcdaęo quadrado de silicio de aproximadamente 
5 mm X 5 mm no qual foram depositadas algumas portas. IC.s pcqucnos costumam ser monlados em pacotcs retan- 
gulurcs dc pldstico ou ceramica medindo dc 5 a 15 mm de largura c 20 a 50 mm de comprimento. Ao longo das bor- 
das mais longas ha duas linhas paralclas de pinos dc ccrca de 5 mm dc comprimento quc podem ser inseridos cm 
soquetes ou soldados a placas dc circuito impresso. Cada pino sc conccta com a entrada ou saidu de ulguma porta 
no chip ou u loiuc dc energia, ou ao uterrumcnio. Os pacotcs coin duas lileiras dc pinos nu punc cxicmu e ICs na 
parte interna sito conhccidos tecnicamcntc como pacotcs duplos em linha ( DIPs Oual Inline Packages). mas 
todo mundo os chama dc chips, o que ohscurece a distinęito entre um pedaęo de silfcio e seu pacole. Os pacotcs 
mais comuns tein 14, Ib, 18, 20. 22. 24. 28. 40. 64 ou 68 pinos. Para chips grandes costumam ser usados pacotcs 
quadrudos com pinos nos quatro lados ou na parte de buixo. 

Chips podem sur divididos em classes gerais com busc no numeru dc portas quc contćm. como cspeciticado 
logo adiantc. E óhvio que esse esqucma de clussiticaęao e extrcmamentc prccario. mas as vezcs e tiul. 

SSI (Smali Scalę Iniegraied — circuito de mtegraęao em pequcna cscala): l a 10 portas. 

MSI (Medium Scalę Intcgratcd - circuito de intcgraęao em media cscala): 10 u 100 portas. 

LSI (Large Scalę Inlcgruted — circuito de inlegraęao cm grandę escala): KM) a 100.000 portas. 

VLSI (Very Large Scalę Integrated — circuito de inlegraęao ent escala muito grandę): > 100.000 portas. 

Essas classes tern propriedades diferentes e sdo usadas de modus diferentes. 

Um chip SSI normalmente contem de duas a scis portas independentes. cada uma das quais pode ser usada 
indWidualmentc. no estilo das seęóes anteriores. A Figura 3.9 ilustra um desenho esquemiitico de um chip SSI 
comum que contćm qualro ptirtas NAND. Cada uma dessas portas tern duas entradas e uma saida, demandando um 
lotal de 12 pinos para as quatro portas. Alera disso. o chip prccisa de energia eletnca t V' rl .) e lerra (GND), que sao 


I 







Figura 3.9 

Chip SSI que contem ąuatro 
port-::._ 



LLI LiJ LŁI LlJ LiJ LU LzJ 

GND (Terra) 


compurtilhados por todas as portas. Em gcral o pacoie tem um entalhe próximo ao pino 1 para identificar a orien- 
laęao. Para cvitar que os diagratnas fiquem atravancados, por coiwcnędo niio sao mostrados a fontc dc energia, o 
tena e as portas nao utilizadas. 

Ha muitos outros chips como esses disponiveis por alguns ccnlavos cada. Cada chip SSI tern um punhado de por¬ 
tas c ate 20 pinos, mais ou menos. Na dćcada dc 1970. construiam-se computadores eon; gnindes numems desses chips, 
mas. hojc cm dia uma CPU intcira e urna substanciai quantidadc dc memória (cachc) sao gruvadas cm um unico chip. 

Para todos os cfeilos. todas as portas sao ideais no sentido de quc u saida aparecc logo quc a entruda ć aplicn- 
du. Na realidade, chips tem um a tras o de porta linito que inciui o tempo dc propagaęao dc sina! pclo chip e o tempo 
de comutaęao. Atrasos tlpicos sao de 1 a 10 nanossegundos. 

A tccnologia moderna vigente permite colocar quasc 10 miihócs dc transistores cm um chip. Como qualqucr 
c.rcuito pode ser consiruido com basc cm portas NANO. vocć bem quc poderia imaginar quc um fabricante poderia 
produ/ir um chip muito gcral que contives.sc 5 triilhóos dc portas NAND. Infelizmente, um chip como esse nccessi- 
taria dc 15.000.002 pinos. Como o e.spuęo-padrao entre pinos ć 0.1 polcgada. o chip teria 19 km dc comprimcnto, 
o quc talvcz tivesse um efeito negativo sobrc as vendas. Ii claro quc a uniea maneira dc lirar proveito da tccnologia 
ć projetar circuitos com uma alta relaęao porta/pino. Nas seęóes seguintes vamos cxaminar circuitos MSI simplcs 
quc combinam uma quantidadc de portas intemamente para fomccer uma funędo titil que rcquer apenas um nume- 
ro limitado dc concxdes cxtcmas (pinos). 

3.222 Circuitos combinacionais 

Muitus aplicaęóes de lógica digital requerem um circuito com multiplas entradas e mtiltiplas saidas, no 
qual as saidas sao determinadas cxcłusivamentc pclas entradas cm qucst3o. Esses circuitos sio denominados 
circuitos combinacionais. Nem todos os circuitos tćm essa propriedadc. Por cxemplo. um circuito que contc- 
nha elementos de memória pode perfeitamente gerar saidas quc dcpendcm de valorcs armazenados. bem como 
de variiveis de entrada. Um circuito quc esteja implementando uma tabela-vcrdade como a da Figura 3.3(a) i 
um cxcmplo tfpico de um circuito combinacionai. Nesta scęao examinaremos alguns circuitos combinacionais 
de uso freqiientc. 


Multiplexadores 

No nivcl lógico. um multiplexador e um circuito com 2" entradas de dados. uma saida de dados e n entradas 
de conirolc que sclccionam uma das entradas de dados. Essa entrada seiecionada e dirigida (isto e. roteada) ate a 
saida. A Figura 3.10 e um diagramu esqucmalico ile um tuulliplexador dc oito entradas. As Ires linhas de controle. 
A. H c C. codiiieam um iiutucro de 3 bits que especiiica qual das oito linlias dc entruda e dirccionada ate a porta OB 
e dali atć u saida Nao importu quul vaior esteja nas linhas ile controle. setc das portas AND semprc produzirao saida 
0; a outra pode produzir ou um 0 ou um 1. dependendo do valor du linba de entrada sclccionadu. Cada porta AND ć 
habilitada por uma combinaęao diferente das entradas de controle. O circuito do multiplexador e mostrado na Figura 
3.10. Quando sao adicionados tbnte de energia c lerra, ele pode ser cmpacotado cm um pacotc de 14 pinos. 

Usando o multiplcxador podcmos implcmcnlar a funęao mujoritaria da Figura 3.3(a), como mostrado na 
Figura 3.11(b). Para cada combinai;ao de A. li c C, uma das linhas de dados ii seiecionada. Cada entrada e liguda 
ou a (I lógico) ou ao lerra (0 lógico). O ałgorilmo para ligar as entradas e simplcs: u entrada D, 6 u que tem o 
mesmo valor da linba / da tabela-vcrdade. Na Figura 3.3(a) as linhas 0. I, 2 c 4 sao 0. port anto as entradas corrcs- 
pondentes estao aterradas: as linhas restontes sao I. portanto estao ligadas a I lógico. Dessa maneira, qualquer tabc- 
la-verdadc de trćs variaveis pode ser implcmentada usando o chip da Figura 3.1 l(a). 

Acabamos de ver como um chip mulliplexador pode ser usado para sclecionar uma das diversas entradas e 
como cic pode implcmcntar uma tabela-venlade. Uma outra dc suus aplicaęocs ć como um conversor dc dados para¬ 
lelo para serial. Colocando 8 bits de dados nas linhas dc entrada e entao cscalonando as linhas cm seqilćncia de 000 
a 111 (binarto). os 8 bits sao cołocados em serie na linha de salda. Uma utilizaęao lipn a da convcrsćo paralela para 
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scri.il ć um tccladu, ondc cada acionumcnto dc urna tccla dcfinc implicilamcntc um nuinero dc scle ou oito bils que 
dcvc ser ulimentado serialmentc por uma linha iclcfónica. 

O invcrso dc um multiplesadorć um demultiplcxador. quc dirigc sua unica entrada ale uma das 2" saidas depen- 
dendo dos valorcs das n linhas de contmle. Sc o valor hiniirio dus linhas de controlc for k. e selccionada a salda k. 

Decodlficadores 

Como um segundo excmplo. agora vamos c.\aminar um circuito quc loma um mimem dc n bils como cnirada e 
o usa para selccionar (isto e. eolocar cm I > esatamente uma Jas 2" linhas dc >afda. Tal circuito. ilusirado para ii = 3 
na Figura 3.12. ć denominndo deeodifieador. 

Para vcr como um deeodifieador pode ser titil, imaginc uma pequena memoria que consistc em oito chips, cada 
um cuntendo 1 M13. O chip 0 tern enderc^os de 0 a 1 MB. o chip 1 tein cudcrcgos de I MB a 2 MB c assim*por 
dianie. Quando um enderc^o c apresentado a memória. os 3 biLs dc ordem alta sao usados para sclecionar um dos 
oito chips. Usando o circuito da Figura 3.12. esses 3 bits s3o as tres entradas. A. B cC. Dependendo das entradas. 

exatamente uma das oito linhas dc salda D n . D 1 . ć 1; o resto ć 0. Cada linha de saida habilita um dos oito chips 

dc memdrin. Como somente uma linha de salda ć colocada em I. somentc um chip ć habililudo. 

A opera^ao do circuito da Figura 3.12 e dircta. Cada porta AND tern ircs entradas. dus quais u pnmeira ć A ou 
.A. a segunda e B ou By a terceira e C o u C. Cada porta ć habilitada por uma combmaęao dilerentc de entradas: D n 
por \ B C.D | por A B Cc assim por dianie. 


Comparadores 

Um outro circuito titil e o eomparador. que compara duas palavras de entrada. O comparador simplcs da 
Figura 3.13 toma duas entradas. A e B. cada uma de 4 bits de cnmprimcnto. e produz um I sc elas torem iguais c 








Figura 3.12 

Circuito tiacodificador 
3 para 9. 



urn 0 se clas nao forem iguais. O circuito e hascado na porta XOR (EXCI.USrVF. OR — OIJ F.XCLUSIVO). quo 
1 produz um 0 se suas cntradas forcm iguais c um I se clas forem difcrentes. Se as duas puluvras de entrada forem 

, iguais, todas as qualro portas XOR devem produzir 0. Entao pode-so efetuar urna opcraqao OR ncsscs quatro sinais: 

se o resuitado for 0. as paiavras dc entrada sao iguais: caso contnirio. nao. Em nosso exemplo usiunos ^ma porta 

* NOR como o cstagio linal para revcrter o sentido do tcstc: 1 significa iguai. 0 signifiea difercntc. 

Arranjos lóglcos programaveis 

Ja viinos antes quc funęóes arbitrdrius (tabelas verdadc) podcm ser construfdas calcu lando termos produto com 
| portas ANO c entao efetuando urna operaęan OR nos produtos. Um chip muito gcr.il para fomiar somas de produtos e 

denominado ari an jo lógico progrumavel (PLA — Prngnimimible Logic Array). Um pequeno escmplo desse 
' arr.injo e mostrado na Figura 3.14. Essc chip tem linhas dc entrada para 12 variavcis. O complcmcnto dc cada ciura- 

I da e gerado intemamemc. perfazendo 24 sinais de entrada no total. O coraędo do circuito e um arranjo de 50 portas 

AND. Cada urna dclas nodc (er como uma entrada potencialmcntc qualquer suheonjunto dos 24 sinais de entrada Urna 

* maili/, dc 24 X 50 hits fomccida pelo usuario detennina qual dos sinais de entrada vat para qual porta AND. Cada linha 

| dc entrada para as 50 portas AND contćm um fiisfvcl. Quandu expedidos da lubrica todos os 1.200 fus(veis estao intac- 

los. Para programar a matri/. o usuario quetma tusivcis sclccionados aplicando uma alla tensao ao chip. 

A parte de saida do circuito consistc em scis poruis OR, cada uma com alć 50 entradas correspondentcs as 50 sai- 
das das portas AND. Aqui. mais uma vcz uma matri/. (50 X 6) fomecida pelo usudrio di/. quais das conesóes poten- 
ciais realmcnte existcin. O chip tem 12 pinos de entrada 6 ptnos dc saida energia e aterramento. em um total dc 20. 

Como exemplo de um modo de utili/.aęao possfvel de um PLA vamos considcrar mais uma ve/. o circuito da 
Figura 3.3(bl. Ele tem trćs entradas. quatro portas AND. uma porta OR e tres inversorcs. Após feitas as conexoes 
intemas adcquadas. nosso PLA pinie calcular a mesma lunęao usando tres dc suas 12 saidas. quatro de suas 50 por 
tas AND e uma dc suas seis portas OR. (As quairo portas AND dcvem calcular ABC. ABC. ABC f ABC. respeeti- 
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vamente: a porta OR toma esses quatro termos produto como entrada.) Na vcrdadc, o mesmo PLA poderia ser liga- 
do pani calcular simultancamente um total de quatro funęóes dc compiexidade similar. O fator limitador para cssas 
lunęocs simples ć o mimem de variaveis de entrada: para as mais complicadas poderia ser as portas AND ou OR. 

Embora os PLAs programaveis em campo que acabamos de dcscrcver ainda estejam em uso, para muitas aplica- 
ęóes e prefcrivel um PLA fcito sob medida. Esses PLAs Sao projetados pelo clientc (grandę volume) e produzidos pelo 
fabricunte conforme as cspecificaęfies do clienle: alem disso. sao mais baratos do quc os pmgjramaveis em campo. 

Agora podcmos comparar os trćs difcrcntcs modos de implcmenlaęao da tabcla-verdade da Figura 3.3(a) quc 
ja discutimos. Usando componentcs SSL precisamos de quatro chips. Como allcmalivu. um chip multiplcxador MSI 
seria suficiente, como mostra a Figura 3.11 (b). Por firn. poderiamos usar urna quana parte de um chip PLA. E óbvio 
que. sc forem necessiirias muitas funędes, o PLA e mais cficicnte do que os outros dois melodos. Para circuitos sim¬ 
ples, os chips SSI e MSI, mais baratos, podem ser prcferivcis. 

3.2.3 Circuitos aritmeticos 

Chegou a hora dc passar dos circuitos MSI de uso geral discutidos anteriormente para circuitos MSI combi- 
nacionais usados part efetuar aritmetica. Comeęaremos com um simples dcslocador dc 8 bits e em seguida vere- 
mos como siło construidos os soinadores e. por lim. estudarcinos as unidades dc lógica aritmetica que desempenham 
um papel fundamental em qualquer computador. 

Deslocadores 

Nosso primeim circuito aritmetico MSI e um dcslocador de oito entradas e oito saidas (veja Figura 3.15). Oito 

biLs de entrada sao apresentados nas linhas D n . D-,. A salda. que e apcnas a entrada deslocada de 1 bit. esta nus 

linhas S„ . S 7 . A linha de controle. C. determina a dircęaodo deslocamento. 0, para a esquerda e 1 para a dircita. 

Quando o deslocamento for para a esquerda. um 0 e inserido no bit 7. De modo semelhantc, quando o deslocamen¬ 
to for para a dircita. um I e inserido no bit 0. 

Para ver como o circuito funciona. observe os parcs de portas AND para todos os biLs. cxceto as portas na extre- 
midadc. Quando C = I. o membro da direila de cada par e ligado. passando o bit de entrada coirespondcnte para a 
salda. Como a porta AND da dircita esta ligada a entrada da porta OR a sua dircita. e cxcculado um dcskx:amento 
para a direila. Quando C = 0, o membro da csquerda do par da porta AND ć ligado. o que provoca um deslocamen¬ 
to para a esquerda. 

Somadores 

IJm computador que niio possa somar numeros inteiros e qua.se inimaginavcl. Por eonscqUencia. um circuito 
de hardware para efetuar adięao e urna parte essencial de loda CPU. A tabela-verdade para adięao de inteiros de I 
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Figura 3.15 

Deslocador esouerda/direita 
tle 1 bit._ 



Figura 3.10 

(a) Tabeta-verdade para 
adiędo de 1 bit. (b) Circuito 
para um meio-somador. 



Porta Exctusrva OR 



bit e mostrada na Figura 3.16(a). Ha duas saidas presentes: a soma das cntradas. A e /?, e o transporte (vai-um) para 
a posięao seguinte (a csquerda). Um circuito para caicular o bit dc soma c o bit de transporte e ilustrudo na Figura 
3.16(b). Esse circuito simples e geralmcntc conhecido como um meio-somador 

Embora um meio-somador scja adequado para somar os bits dc ordcm baixa de duas palavras de enlrada dc 
multiplos bits, ele nao servira pitni urna posięao de hit no meio da palavra porquc nao trata o transporte de bit da 
posiędo il dircita (vcm-um). Em scu lugar precisamos do somador completo da Figura 3.17. Pcla inspeęuo do cir¬ 
cuito devc ficar ciaro quc um somador completo ć composto dc dois meios-snmadorcs. '■ linha dc saida Sum (Suma) 
ć 1 se um mimcro fmpar A. li co vcm-um ( carry in ) forem 1. O vai-um (carry out) ć I se A ou B forem ainbos 
(enlrada csqucrda para a porta OR) ou exatamentc um dclcs for 1 c o bit dc vem-um (carry in) tambćm for 1. Juntos, 
os dois mcios-somudorcs gemm a soma e tambćm os bits dc transporte. 

Para cunstruir um somador para palavras de 16 bits, por cxcmplo, basta repetir o circuito da Figura 3.17(b) 16 
vezes. O vni-um (carry out) de um bit ć usado como o vcm-um (carry in) para scu vi/.inho da csquerda. O vem-um 
do bit da cxtrema direita esta iigado a 0. Essc tipo dc somador ć denominado somador de trunspurte encudcado 
porque. na piór das hipóiescs, somando 1 a 111...111 (bindrio) a adięao nao pode ser conclufda ate que o vai-um 
lenhu percorrido todo o caminhu dcsdc o bit da extrema direita utć o bit da cxtrema csquerdu. Tambćm existem 
somadores que nao tfim essc atraso e, portanto. sao mais rdpidos — cm gcral sdo os preferidos. 

Como cxcmplo simples de um somador mais rdpido. considerc subdividir um somador de 32 bits em uma 
metade interior de 16 bits c uma metade supenor de 16 bits. Quando a adięao comeca, o somador superior aintla 
nao pode trabalhar porque ndo sabc qual ć o vcm-um por 16 tempos dc adięao. 


Vem-um 
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(a) 


(b) 
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O Contudo, considerc essa modificaęao. Era vez de urna unica metade superior. vamos dar ao soraador duas 

mctadcs superiores cm paralelo duplicando o Kurdwarc da metade superior. Desse modo. agora o circuito eon 
sistc cm trćs somadorcs de 16 bits: urna metade interior e duas mctadcs superiores, UOc U 1 que functonam cm 
paralelo, lim 0 e alimcntndo cm L/O como vai-um: um 1 e al i me mado cm U 1 como vai-um. Agora, ambos 
podem iniciar ao mesmo tempo quc a metade inferior. mas somcnte um estard correto. Após 16 tempos de adi- 
ij-ao de bits, ja se sabera qual e o vem-um que deve ir para a metade superior, portanto agora jd se pode selecionar 
a metade superior eorrcta eom base cm Juas respostas dispom'veis. Essc estrautgema rcduz o tempo de adi<,ao de 
um fator le Jois. Um somador como esse e dcnominado sumador de seleęao dc vai-um. Entao o estratagema 
pode ser repeiidu para construir cada somador de 16 bits com base em somadores dc X bits rcpetidos e assirn 
por diantc. 

Unidades lógica e aritmetica 

Grandę parte dos computadorcs contćm um tinico circuito para efetuar AND. OR c sorna dc duas palavras de 
maquina. No caso ttpico, ud circuito para palavras de n bits e composto dc n circuiios identicos para as posięóes 
individuais dc bits. A Figura 3.18 e um exemplo simples de um circuito desscs. dcnominado unidade lógica arit¬ 
metica (ULA)( Arithmetic Logic Unit — ALU). Ela pode caicular qualquer uma das quatro funęóes - a sabcr, A 
AND /i. A OR B, fi ou A + fi, dcpendendo dc as linhas dc entrada de seleęao de funęau F„ c F, contercm 00, 01,10 
ou 11 (bindrio). Notę que. aqui, A + B significa a soma aritmetica dc A c B, e niio a operaęao booleana OR. 

O canto inferior esquerdo de nossa ALU contem um decodilicador de 2 bits para gcrar sinais de habilitaęao 
ienahle) para as quatro operaęóes. com base nos sinais dc controle F 0 c F,. Dcpendendo dos valorcs dc F„ e 
exatamentc uma das quatro linhas de habilitaędo ć selccionada. Ativar essa linha permitc que a sufda para a funędo 
sclecionada passe por ela ate u poru OR linal. para safda. 

O canto superior esqucrdo contem a lógica para caicular A AND B A OR B, e B. mas no maximo um desscs 
resultados e passado para a porta OR linal. dcpendendo das linhas de habilitaędo quc saem do deaxiiticador. Como 
exalatncnte uma das satdas do dccoditicador serd I, exatamcnte uma das quatro portas AND quc comandatn a porta 
OR sera habilitada: as outras tres resultarao 0. independente dc A e B. 

Alóm de poder usar A e B como entradas para operaędes lógicas ou aritmćticas, lambem e possfvel obrigar 
quaisquer delas a 0 negando ENA ou ENB. respectWamcnte. Tambem e posstvcl obter A ativando INVA. Vercmos uti- 
lizaęóes tara INVA. ENA c ENB no Capitulo 4. Em condięóes normais. ENA e ENB sao ambas I para habilitar ambas 
as entradas e !NVA e 0. Nesse caso. Ac B sao apenas alimentados na unidade lógica, sem modillcaęao. 

O canto dircito inferior da ALU contem um somador completo para caicular a soma de A e fi. incluindo mani- 
nula^do de transportes (vai-um e vem-um), porquc ć provdvel quc. em seu devido tempo, varios desses circuitos 
serao ligados juntos para efetuar operaęóes de palavra inteira. Na vcrdadc, cxistem circuitos cumo o da Figura 3.18 


Ftinira .1.18 

ALU dc 1 bit. 


Unidade lógica Vefn-um 



Decodiflcador 


Vai-um 










Figura 3.19 

Otto segmentos (sflces) de 
ALU de 1 bit conectados para 
formar uma ALU de 8 bits. Os 
sinais de habilitaęao e 
tnversao nao sao mostrados 
por simplicidade._ 
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dispom'veis que sao conhccidos como segmentos de bits (bit slices). Eles pcrmitcra que o projctista do computa- 
Jor montc uma ALU dc qualquer largura quc quiscr. A Figura 3.19 mostra uma ALU dc 8 bits monuida com 8 seg¬ 
mentos ( slices ) dc ALU de 1 bit. O sinal INC só i util para operaęóes dc adięilo. Quando presente, inerementa o 
resuitado listo e. adicionu I a ele), possibilitando o cdlculo de somas como A + [ c A + B + 1. 

3.2.4 Relógios 

Em muitos eircuitos digitais. a ordem em que os cventos ocorrem e crftica. As vezcs urn cvcnto deve preccdcr 
um outro, iis vc7.cs dois eventos dcvcm ocorrer simultaneamcntc. Para permitir quc os projetistas consigam as rela- 
ęóes de temporiz.aęao requeridas. muitos cicuitos digitais usam relógios para providenciar sincronizaęao. Ncssc 
eonlexto. um relógio e um circuito que emite uma serie de pulsos com uma largura de pulso precisn e intervalos 
precisos entre pulsos consecutivos. O intcn’alo de tempo entre as arestas correspondentcs de dois pulsos consccti- 
tivos ć denominado tempo de rido dc relógio. Em geral as freqiiencias dc pulso estiio entre 1 e 500 MHz, corrcs- 
pondendo a ciclos de rcliigio de 1.000 nanossegundos a 3 nanossegundos. Para conscguir alta prccisao, a frcijUencia 
de relógio normalmcntc e contro lada por um oscilador dc cristal. 

Muitos evcntos podem ocorrer dentro de um computador durantc um unico ciclo de relógio. Se esses eventos 
devcm ocorrer em uma ordem especifica. o ciclo de relógio devc ser dividido em subciclos. Uma manciru comum 
dc prover resolugiio superior a do relógio basico e aprovcitar u linha de relógio primdria e inserir um circuito com 
um atraso conhccido, gerando assim um sinal de relógio secundario dcslocado de certa fasę cm relaęao ao primci- 
ro. como mostra a Figura 3.20(a). O diagrama de temporizaęao da Figura 3.20fh) dii quatro rcferencias de tempo 
para cventos discrctos: 

1. Fasę asccndente de Cl. 

2 . Fasę desccndente de Cl. 

3. Fasę ascendente de C2. 

4. Fasę desccndente de C2. 

Mnculando diferentes evcntos iks vdrias fases, pode-se conscguir a scqUencia requerida. Se forem neeessanas 
mais do que quatn> rcferencias dc tempo dentro de um ciclo dc relógio. podcm-sc puxar mais linhas da linha pri- 
mdria. com diferentes atrasos. 

Em alguns eircuitos estamos interessados em intcrvalos de tempo em ve7. dc inslantes discrctos de tempo. Por 
exemplo. pode-se permitir que algum evento acontcęa loda vez quc Cl estiver alto, em vez de exatamente na fasę 
ascendente. Um outro evento só podeni acontecer quando C2 estiver alto. Se forem necessarios mais de dois inter- 
valos diferentes. podem ser instaladas mais linhas de relógio ou pode-se fazer com que os estados altos dos dois 
relógios se sobrcponham parcialmente no tempo. No ultimo caso, podem-se distinguir quatro intervalos distintos: 
ĆI AND Ć2. Cl AND C2. Cl ANO Ć2c Cl AND C2. 

A propósito. relógios sao simetneos — o tempo gasto no estado alto e igual ao tempo gasto no estado baixo. 
como mostra a Figura 3.20(b). Para gerar um trem de pulso assimetrico, o relógio bdsieo e deslocado usando um 
circuito de atraso e efetuando uma operaęao AND com o sinal original. como mostra a Figura 3.20(c) como C. 


Figura 3.20 

|a| Relógio. |b| Diagrama de 
temporizacao para o relógio. 
|c| Geraęao de um relógio 
assunetneo. 



(0 


Capitnlo 3 0 Nivel Lógi o Digital 





Organizaęio Estruturada de Computadores 


CS 

Ci 


3.3 Memória 


Um componente esscncial de todo eomputador e sua memória. Sem memória nao podcriam existir os compu- 
tadorcs que eonheecmos. A memória e usada para armazenar instruęóes a serem execuladas e dados. Nas scęóes 
scguintes examinaremos os componentes basicos de um sistema de memória comeęando no nivel da porta para vcr 
como eles funcionam e como sao combinados para produzir memórias de grandę porte. 

3.3.1 Memórias de 1 bit 

Para criar urna memória de I bit (“latche"), precisamos de algum circuito que ‘se lembre'. de algutn modo. de 
valore.s de entrada antcriores. Tal circuito pode ser construido com base em duas ponas NOR. como ilustrado na 
Figura 3.2l(a). Circuitos analogos podem ser eonstruidos com portas NAND. porem nao vamos mais mcncionri-los 
porquc sao conceitualmente idenueos as versóes NOR. 

O circuito da Figura 3.2l(a) e denuminado latch SR. Ele tern duas entradas. S, para ativar ( setting) o latch, e 
R, pani restaura-lo ( resetling ). isto ó, Iibera-lo. O circuito tambem tern duas saidas. Q c Q, que siło complementa- 
res. como vcremos em hrevc. Direrentemente de um circuito combinacional. as saidas do latch nao sao exclusiva- 
menle determinadas pelas entradas atuais. 

Para ver como isso ocorre, vamos admitir que ambos. S e R, sejum 0, o que ć verdadc na maior parte do tempo. 
Apenas para polemizar. vamos admitir quc Q - 0. Como Q ć realimentado para a porta NORsuperior. ambas as suas 
entradas sdo 0. portanto sua salda, Q, e I. O 1 e realimentado para a porta inferior que. entao, tem enu-adas I e 0, 
resultando Q- 0. Esse cslado e no minimo eocrente e e retrauido na Figura 3.21 (a). 

Agora vamos imaginar que Q nao seja 0, mas I. com R e S ainda U. A porta superior tem entradas de 0 
e 1, e urna saida. Q, de 0. que ć rcalimentada para a porta inferior. Esse estado. mostrado na Figura 3.21 (b). 
tambem e coerente. Um estado com ambas as saidas iguais a 0 ć ineoerente. porque foręa ambas as portas a 
ter dois 0 como entrada. o que, se fosse verdade, produziria I. nao 0. como salda. De modo semelhante. e 
imposs(vel ter ambas as saidas iguais a 1, porque isso foręaria as entradas a 0 e I, que resultaria 0, nao I. 
Nossa conclusao e simples: para R = S = 0. o latch tem dois estados cstaveis. quc dcnominarcmos 0 e I, 
dependendo de Q. 

Agora. vamos examinar o efeito das entradas sobrc o estado do latch. Suponha quc S se toma I enquanto Q = 
0. Entilo, as entradas para a porta superior sio I e 0, foręando a salda Q a 0. Essa mudanęa faz com que ambas as 
entradas para a porta inferior sejam 0, foręando a saida para I. Portanto, ativar S. isto ó, lazer com que seja I . muda 
o estado de 0 para 1. Ativar R para I quando o latch esta no estado 0 ntio tem efeito nenhum porque a saida da poiła 
inferior NOR e 0 para entradas 10 c entradas 11. 

Usando raciocfnio semelhante, e fdcil ver que ativar S para I quando em estado Q = 1 ndo tem efeito nenhum, 
mas alivnr R leva o latch ao estado Q - 0. Resumindo. quando S ć ulivado para 1 momentancamente, o latch acaba 
no estado Q = 1. independentemente do estado em que estava antes. Da mesraa maneira. ativar R para I momenta¬ 
ncamente foręa o latch ao estado Q = 0. O circuito ‘se Icmbra’. se foi 5 ou R. ligado por ultimo. Usando essa pro- 
priedade podemos eonstruir memórias de computadores. 



Latches SR com relógio 

Muitas vezcs e convenicnte impedir que o latch mude de estado. a nao ser em certos inomcntos cspecilkados. 
Para atingir esse objetivo fazemos urna ligeira moditicaęao no circuito basico. como mostra a Figura 3.22. para obter 
um latch SR com relógio. 




n 
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Figura 3.22 

Latch SR com relógio. 
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Esse circuito tem urna entrada odieional, o relógio, que normalmente ć 0. Com o relógio em 0, ambas as por- 
Uis ANO gerom salda 0, independeutemente de ser S e R, e o latch nao rauda de cstado. Quando o relógio e 1. o efci- 
to das portas AND desaparece e o latch se toraa scnstvel a S e R. Apesar dc seu nome. o sinal do relógio nao prccisa 
ser ąerado por urn relógio. Os termos habiiitaęao ( enable) e intermitente ( strobe) tambem sao muito usados para 
indicar que a entrada do relógio ó l; isto e, o circuito e sensń/el ao cstado de S c R. 

Ale aqui evitamos falar no que acontece quando ambos, S e R, sao l. por urna boa raziło: o circuito sc 
loma nao determinfstico quando ambos, R c S. finalmente retomam a 0. O tłnico cstado eoerente para 5 = R = 1 
ĆQ = Q=0\ porem, assim que ambas as entradas voltam para 0, o latch deve saltar para um de scus dois estados 
csUivets. Sc quaisquer das entradas cair para 0 antes da outra, a que permanecer cm 1 por mais tempo vcnce, por- 
que. quando apenas urna entrada for I, ela foręa o cstado. Sc ambas as entradas wltarcm u 0 simultancamentc — o 
quc e muito improvavel —. o latch salta alcatoriamcnlc para um de seus estados estaveis. 

Latches D com relógio 

Urna boa maneira de rcsolver a ambigiiidadc do latch SR (causada quando S - R - 1) ć cvitar que ela ocorra. 
A Figura 3.23 apresenia um circuito dc latch com somente umu entrada. D. Como a entrada para u porta interior 
AND e semprc o complcmcnto da entrada para a portu superior, nunca ocorre o problemu dc ambas as entradas serem 
I Quando D = 1 e o relógio for 1, o latch e lcvado ao estado Q- 1. Quando D = 0 e o relógio for 1. cle e levado 
ao estado Q = 0. Em outras pulavras, ąuundo o relógio for 1, o vulor corrcnte de D 6 lido e urmazenado no latch. 
Esse circuito, denuminado latch D com relógio, e urna verdadeira memória de 1 bit. O valor armazenado semprc 
estartł disponivel em Q. Para carregar o valor correnlc de D na memória. um pulso posilivo <5 colocado na linha do 
relógio. 

Esse circuito rcquer 11 transistores. Circuitos mais solisticados (porćm menos óbvios) podent unnazenar 1 bit 
com atć seis transistores. Esscs projetos sao normalmente usados na prdtica. 



3.3.2 Flip-flops 

Em rnuitos circuitos ć ncccssdrio ler o valor em determinada linha em determinado instante, e armazenii-lo. 
Ncssa vananie. denominada flip-flop, a transięao dc estado nao ocorre quando o relógio e t, mas durantc a transi- 
ęSo do relógio dc 0 para I (bonia uscendente), ou de l para 0 (horda descendcnte). Assim. o compnmento do pulso 
do relógio niio <i importante. contanto quc as transit;óes ocorram rapidamentc. 

Para dar ónłase. vamos repet i r qual if a difcrcnęa entre um llip-flop e um latch. Um flip-flop ó disparado pcla 
horda. enquanto um latch ć disparado pelo nivel. Contudo, tlque atento. porque esses termos sao muito confundi- 
dos na literatura. Muitos autores usain ‘llip-llop' quundo estao sc rcferindo a um latch. c vicc-versa. 

Ha viirias abordagens dc prujeto para um llip-llop. Por cxcmplo, sc houvcsse algumu maneira de gerar um 
pulso muilo curto na horda aseendentc do sinal de relógio. esse pulso poderia ser alimentado para um latch D. Na 
verdade, essu maneira existc, e o circuito para ela e mostrado na Figura 3.24(a). 

A primcira vista poderia parecer que a saida tla porta AND seria sempre zero. urna vez que a opcrat;ao AND dc 
qualquer sinal com seu inverso e zero. mas a situaęao e um poueo diferente disso. O invcrsor tem um aUuso de pro- 
pagaęuo pequeno. mas nao /.ero, e e esse utruso que faz o circuito luncionar. Suponha que meęamos a tensao nos 
quatn) pontos dc mcdięao a, b, cc d. O sinal de entrada. medido em a. ć um pulso dc relógio longo. como mostra¬ 
do na parte interior da Figura 3.24(b). O sinal em A ś mostrado acima dele. Observe que cle esta invertido e tam- 
bóm ligeiramcnte atrasado. normalmente de alguns nanossegundos. dependendo do lipo de inversor utilizado. 

O sinal cm c tambem esta atrasado, mas somente pelo tempo corrcspondentc a pmpugaęao (ił vclocidade da 
luz) do sinal. Se a distancta lisica entre a e c for. por excmplo. 20 mi era. entito o atraso dc propagaęiio ć 0.0001 
nanossegundo. quc certamcntc e desprczivcl em comparaęao com o tempo que leva para o sinal sc propagar pelo 
inversor. Assim. para todos os efeitos e propósitos, o sinal em c ć praticamente identico ao smal em a. 
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Figura 3.25 

rup-flop d. 
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Figura 3.26 

Latches e flip-flops D. 



(a) (b) (c) (d) 

Quundo su efetua urna operaęao AND cum as entradas para a porta AND. b u c. o rusultado u um pulso ourto. como 
mostra a Figura 3.24(b), onde a larguru do pulso, A, e igual ao atraso da porta do invcrsor. normalmente 5 nanossegun- 
dos ou menos. A sarda da porta AND e exatamentc essc pulso deslocado pulo atraso da portu AND, como mostrado na 
parte superior da Figura 3.24(b). Esse deslocamento dc tempo significa apenas que o latch D serii ativado eom um atra¬ 
so tixo após a fasę ascendentc do relógio, mas nao tern efcito sobre a largura do pulso. Em urna memória com tempo 
de ciclo de 50 nanossegundos, um pulso de 5 nunossegundos para informar quando ler a linha D pode ser suficiente- 
rnente eurto, caso cm que o eireuito completo pode ser o da Figura 3.25. Vale a pena ohscrvar que esse projeto de flip- 
tlop e alraente porquc ć fdcil de entender, embora, na prdtiea, normalmentc sao usudos flip-flops mais solisticados. 

' Os simbolos padronizados para latches e flip-flops sao mostrados na Figura 3.26. A Figura 3.26(a) 6 um latch 
cujo estado e carrcgado quando o relógio. CK, ć l, ao contrdrio da Figura 3.26(b), quc e um latch cujo relógio nor¬ 
malnienie e I. mas cai para 0 momentaneumente para carregar o estado a partir de D. As liguras 3.26(c) e (dl sao 
flip-flops ein vez de latches. o que e indicado pulo simbolo cm angulo nas entradas do relógio. A Figura 3.2(c) muda 
dc estado na horda ascendcnte do pulso do relógio (transięflo de 0 para 11, enquanio a Figura 3 26(d) muda dc csla- 
do na horda deseendente (transięao de 1 para 0). Muilos latches e flip-flops (mas nao todos) tambem lem Q" como 
uma salda, c alguns tein duas entradas adicionais Set ou Presa (que loręam o estado para Q = I) e Reset ou Cleur 
(que loręam o estado para Q = 0). 

3.3.3 Registradores 

Ifó uma varicdade de configuraęóes de flip-flops dispomveis. Uma simples, que contem dois flip-flops D 
independentes eom sinais elear e //reset, e ilustruila na Figura 3.27(a). Embora empacotados no mesmo chip de 
14 pinos. os dois flip-flops nao sao rclacionados. Um arranjo bastantc diferente e o flip-flop octal da Figura 
3.27(b). Aqui, os oito (daf o termo ‘octal’) flip-flops D nao apenas nao tfim as linhas Q e preset, mas todas as 
linhas de relógio estao ugrupadas e siło comandadas pelo pinu 11. Os flip-flops cm si sao do lipo dos da Figura 
3.26(d), mas as murcas de invcrsao nos flip-flops sao eanceladas pelo invcrsor vinculado ao pino 11, portanto os 
flip-flops sao eurregados na borda asccndente. Todos os oito sinais elear tambem estao agrupados. portanto. 
quando o pino 1 vai a /.ero, todos os flip-flops sao loręados para scu estado 0. Caso voce esteja imaginando por 
que o pino 11 e invertido na entrada e enlao invertido novamente a cada sinal CK, um sinal dc entrada pode nao 
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ter corrcnte suliciente para comandor todos os oito flip-llops; na realidadc, o uwersor de entrada estś sendo usado 
como uin amplificador. 

Hm bora utną razao para agrupar is linhas dc rclógio e elear da Figura 3.27(b) seja economizar pinos. nessa con- 
liguraęuo o chip e usado de ntodo dilerentc cm relaęao aos oito flip-flops nao relacionados. Ele e usado como um regis- 
trador tinico de 8 bits. Como altemativa. dois desses chips podem ser usados em paralelo para form ar um registrador 
dc 16 bits vinculundo scus rcspcctivos pinos leli. Estudaremos registradores e suas utilizaęSes no Capitulo 4. 

3.3.4 Organizacao da memória 

Embora agora tenhamos progredido dc urna simplcs memória de I bit ila Figura 3.23 para a memória de 8 bits 
da Figura 3.27(b), para construir memórias grandes e prcciso urna organizagao diferente. na qual palavras indivi- 
duais podem ser endereęudas. Urna orgamzaęao de memória amplamente utilizada e quc obcdcce a esse critório e 
mostrada na Figura 3.28. Esse exemplo i lustra urna memória com quatro palavras dc 3 bits. Cada opcraęao lć ou 
escrcvc urna pulavra complctu de 3 bits. Embora urna capacidadc total de memória dc t2 bits seja pouco mais do 
que nosso flip-flop octal. ela rcquer um mimem me nor dc pinos e. mais importante. o pmjeto pode ser estendido 
com facilidade para memórias grandes. 

Embora a primeira vista talvez parcęa complicada. a memória da Figura 3.28 na verdade e bastante simples 
dcvido a sua estrutura rcgular. Ela tern oito linhas de entrada e trćs linhas de saida. Tres entradas sao dc dados: l„. 
Ii c U; duas siło para o endereeo: A(, e A,; e trćs sao para controle: CS para Chip Select (selecionar chip), RD para 
distinguir entre ler e cscrcver e OE para Output Enable (habilitar salda). As tres saidas sao para dados: O,,. O, e 0 2 . 
Em princfpio essa memória poderia ser colocada em um paeote de 14 pinos, incluindo energia e aterramento, cm 
eomparaęSo com os 20 pinos para o flip-flop octal. 

Para selecionar esse chip de memória. a lógica extema dcve cstabeleccr CS alto e tambem RD alto (1 lógico) 
para leitura e baixo (0 lógico) para cscrito. As duas linhas dc cndercęo devem ser ajustadas para indicar qual das 
quatro palavras dc 3 bits dcve ser lida ou cscrita. Para uma npcraęao de leitura, as linhas dc entrada dc dados niio 
sao usadas, mas u paluvra selccionada e colocada nas linhas dc salda dc dados. Para uma operaęao de escrila. os bits 
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Figura 3.28 

Diagrama lógico para uma 
memóna 4x3. Cada linha e 
uma das ąuatro palavras de 
3 bits. Uma operaęao de 
leitura ou escrita sempre 
16 ou escreve uma palavTa 
completa. _ 


Entrada de dados 



prescntcs nos linhus dc cntrada dc dados siio carregodos na palavra dc mcmória sclccionada; as linhas dc saida dc 
dados nio sao usadus. 

Agora vamos cxaminar utcniamentc a Figura 3.28 para vcr como isso funcionu. As quatro portas AND de sele- 
ęao de palavras ii csqucrdu da mcmória formam um dccodificador. Os invcrsorcs dc cntrada foram instalados de 
modo quc cada porta e hubilitada (salda e alta) por um endereęo di fcrcntc. Cadu porta comandu uma linha dc sele- 
ęiio dc palavra, de cima pura_baixo, para us palavras 0. I. 2 c 3. Quundo o chip i selecionado para uma cscrita. a 
linha vertical rotulada CS • RD estara alta. habililando uma das quatro portas de escrita. dependendo dc qual linha 
de seleęao de palavra esteja alta. A saida da porta de cscrita comanda todos os sinais CK para a palavra sclcciona¬ 
da. carregando os dados dc cntrada nos flip-llops paru aquela palavra. Uma escrita ć efetuada somente se CS esti- 
vcr alfo c RD estiver baixo. c. ainda assim. somente a pulavra .selecionada por A 0 e A{ 6 escrita; as outras palavras 
nao sao altcradas. 

Lcr e semelhante a cscrevcr. A dccodiikaęiio dc cndcrcęo e exatamentc a mesma quc a da cscrita. Mas agora 
a linha CS RD esta baixa. portanto todas as portas dc escrita estiio desabiliuidus e nenlium dos flip-flops ć modi- 
ficado. Fm vcz disso. a linha dc seleęao dc palavra quc for cscolhida habilita as portas AND vinculadas aos Q bits 
da palavra selecionada. Portanto. a palavra sclccionada entrega scus dados iks portas OU de qualro entradas na parte 
interior da figura. cnquanto as outras tres palavras produzem Os. Por conscqiiencia. a saida das portas OR c identi- 
ca ao valor armazenado na palavra selecionada. As trćs pulavras nao sclccionadas nao dao nenhuma contnbuięao ii 
saida. 

Embora pudćssemos ler projetado um circuito no qual as tres portas OR fossem diretamente ligadas as trcs 
linhas de saida de dados. essa operaęao as vezes causa problcmas. Em particular. mostramos que as linhas dc cntra¬ 
da dc dados e as linhas de saida de dados sao diferentes. porćm. nas memórias propriamente ditas, as mesmas li- 
nhas sao usadas. Sc tivćssemos vinculado as portas OR iis linhas de saida de dados. o chip tentaria produzir dados. 
isto ć. foręar cada linha a um valor cspecifico. mesmo nas escrilas. interferindo desse modo com os dados de cntra¬ 
da. Por cssa razao. ć dcscjavel ter um meio de conectar as portas OR iks linhas dc saida de dados cm leituras, mas 
descnnecla-las complctamcntc nas escritas. O quc prccisamos ć dc um comutador eletronico que possa cstabclcccr 
ou imerromper uma conex3o em poucos nanossegundos. 

Felizmcntc esses comutadores existem. A Figura 3.29(a) mostra o simbolo para o quc denominamos liufTer 
nao inversor. que tern uma cntrada de dados. uma <aida de dados c uma cntrada dc controle. Quando a cntrada dc 
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|a| Butler nao inversoc. 

(b) Eleito de (a) ruando o 
controle esta alto. (c| Eteito 
de (a) ąuando o contrele esta 
baao (dl Buffer inversor. 
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controlc o.stiver alta. o buffer agc como um fio, como mostra a Figura 3.29(b). Quando a entrada de controlc esti- 
ver buixa. o buffer age como um circuito aberto, como mostra a Figura 3.29(c); e como se ulguem desconectasse a 
salda de dados do resto do circuito com um alicatc de corte. Contudo, ao eontrdrio do que acontcceria no caso do 
alicatc dc corte, a eonc.tao pinie ser restaurada logo em seguida, dentro dc alguns nanossegundos. apenas fazendo 
com quc o sinal de controlc tique alto novamentc. 

A Figura \29td) mostra um Iruffer inversur, quc funciona como um inversor normal quando o controlc estiver 
alto, e dcsconccta a salda do circuito uuando o controlc estiver baixo. Ambos os tipos dc bulTers siło dispositmw 
de tres estados. porque podem produ/jr 0. 1, ou nenbum dos dois (circuito aberto). Buffers tambem ampli ficam 
sinats. porianto podem comandar rnuitas entradas simultancamente. As vezcs eles sao usados cm circuitos por essa 
ra/:Io. mesmo quando suas propriedades dc comutaęao nao sao neeessarias. 

Voltando ao circuito dc memória, agora jd dcve estar claro para que servem os tres buffers nio inversores nas 
linhas de saida dc dados. Quundo CS, RD c OE estivcrcm todos altos. > sinal dc habilitaęao dc salda tambćm esui 
alto, habilitando as buffers c colocando urna palavra nas linhas de salda. Quando qualqucr um dos CS, RD ou OE 
estivcr baixo, as safdas dc dados sao desconectadas do resto do circuito. 

3.3.5 Chips de memória 

O bom da memória du Figura 3.28 <5 quc cla pode ser ampliada com facilidade para tamanhos maiores. Em 
nosso desenho, a memória e 4 X 3. isto ć, quatro palavras de 3 bits eada. Para amplia-la para 4X8. basta adicio- 
nar mais einco colunas dc quatro flip-ffops eada. bem como mais cinco linhas de entrada c mais cinco linhas de 
saida. Para passar dc 4 X 3 para 8X3, devemos acrescentar mais qualro linhas dc tres flip-flops eada, bem como 
urna linha dc endereęo A ; . Com esse tipo de estrutura o mimem dc palavras na memória dcvc ser urna potfincia de 
2 para efieidncia maxima, mas o ntimero dc bits em urna palavra pode ser qualquer um. 

Como a tecnologia dc circuitos integrados sc ajusta bem a !'abrieaę3o de chips cuja estrutura interna e um 
padrńo bidimensional rcpctitivo. chips dc memória sao urna aplicaęao ideał para cla. A medida que a tecnologia 
melhoru. o mimem de bits que pode ser colocado em um chip continua crescendo, normalmentc por um fator dc 
dois a eada t8 meses (lei de Moore). Os chips maiores nem sempre (omam os menores obsoletos devido lis dife- 
rentes pennutaeóes entre capacidade, vclocidade, energii, preęo e convenidncia da interface. Em geral os chips 
maiores disponlvcis no momento sao vendidos por preęos mais elcvados, porianto sao mais caros por bit do que os 
anligos, menores. 

Hd varios modos de organizar o chip para qualqucr tamanho de memória dodo. A Figura 3.30 mostra duas 
organizaęóes possiveis para um chip de memória mais antigo de 4 Mbits de tamanho: 512 K X 8 e 4.096 K X 1. A 
pmpósito, os tamanhos de chips dc memória costumam ser citados em bits em vez de bytes, portanto adotaremos 
essa convenęao. 

Na Figura 3.30(a) sao neccssiirias 19 linhas de endereęo para cndcrcęar um dos 2 19 bytes c oito linhas dc dados 
para eanegar c armazenar o byte sclecionado. 

Cabe aqui unia obsersa^ao sobrc tecnologia. Em alguns pinos a aha tensao provoca urna aęao. Em outros. e a 
baixa tensao que causa urna aęao. Para evitar conliisao. preferimos monter a cocrencia c dizer sempre quc o sinal e 
afirmadu tem vez de dizer que Pica alto ou fica baixo). o que signitica que foi ativado para provocar alguma aęao. 



Figura 3.30 

Dois modos de organizar um 
chip de memónn de 4 Mbits. 
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00 Assim, para alguns pinos, afirma-lo signitiea estabelecć-lo alto. Para outros, significa estabelecer o pino baixo. Os 

nomes da sinais de pinos afirmados haixos sao distinguidos por u ma barra superior. Assim, um sinal oom rótulo CS 
e afirmado allo, mas um sinal córa rótulo CS ć afirmado baixo. O oposto de alirmado e negado. Quando nada de 
especial estiver acontecendo, os pinos sao negados. 

Agora vamos voltar ao nosso chip de memória. Uma vez que um eomputador normalmente tem muitos chips 
de memória, ć preciso um sinal para selecionar o chip necessario no momento em questao, de miało que ele respon- 
da e todos os outros nao. O sinal CS (Chip Seleet — seleyaode chip)existe paraessa ftnalidade ee alirmado para 
habilitar o chip. Alem disso. ć preciso uma maneira de distinguir entre leituras e escritas. O sinal WE (Write Enable 
— escrita habilitada) ć usado para indicar que os dados estao sendo escrilos, e nao lidos. Por lim. o sinal OE (Output 
Enable — solda habilitada) e afirmado para comandar os sinais de salda. Quando ele nao e afirmado. a salda do chip 
e desconectada do circuilo. 

Na Figura 3.3()(b) ć usado um esquema dc endereyamento diferente. Esse chip e organizado intemamente como 
uma matriz 2.048 X 2.048 de celulas de I bit. o que da 4 Mbits. Para endereyar o chip , em primeiro lugar uma linha 
ć seiecionada ao se colocar seu numero de 11 bits nos pinos de endereyo. Entao o RAS (Row Address Strobę — Stro¬ 
bę da linha de endereyo) e alirmado. Em scguida. um numero de coluna ć coloeado nos pinos de endereyo e o CAS 
(eoluna da linha de endereyo) e afirmado. O chip responde acciiando ou entregundo um bil dc dados. 

Chips de memória de grandę porte costumam ser construldos como matrizes n X n endereyadas por linha e 
coluna. Essa orgunizayao reduz o numero de pinos rcqucrido, mas lambem toma mais lento o endereyamento do 
chip. uma vez que sao necessiirios dois ciclos dc endereyamento, um para a linha e outro para a coluna. Para recu- 
perar um pouco da ve!ocidade perdida por esse projeto, alguns chips de memória podem receber um endereyo de 
linha acompanhado por uma sequćnciu de endereyos de coluna para accssar bits consccutivos em uma linha. 

Anos atriis, os maiores chips de memória costumavam ser organizados como os da Figura 3.30(b). A inedida 
quc as palavras de memória eresciam de 8 bits atć 32 bits e mais, os chips dc I bit comeyaram a ser inconvcnien- 
tes. Construir uma memória com uma palavra de 32 bits usando chips de 4.096 K X I requer 32 chips em parale¬ 
lo. Esscs 32 chips (2m capucidade total de no mlnimo 16 MB, ao passo que usar chips 512 K X 8 requer somente 
quatro chips om paralelo e permite memórias peąuenas, de atć 2 MB. Para evitar ter 32 chips para memória, gran¬ 
dę parte dos fabricantes de chips lanyou famllias com 4, 8 e 16 bits de largura. A situayao com as palavras de 64 
bits ć piór ainda, ć claro. 

Dois exemplos de chips modemos de 512 Mbits siło dados na Figura 3.31. Esses chips tćm quatro bancos de 
memória intemos de 128 Mbits cada, o que requer duas linhas de seleyao de banco para escolher um banc o. O pro- 
jeto da Figura 3.31(a) e de um chip de 32 M X 16 com 13 linhas para o sinal RAS, 10 linhas para o sinal CAS e 2 
linhas para a seleęao de banco. Juntos. esses 25 sinais permilem que cada uma dos l 2 * celulas internas de 16 bits 
seja endereyada. Em compa rayilo . a Figura 3.31 (b) apresenta um projeto de 128 M X 4 com 13 linhas para o sinal 
RAS, 12 linhas para o sinal CAS e 2 linhas para a seleyao de banco. Nesse easo, 27 sinais podem selecionar quais- 
quer das 2 27 celulas internas de 4 bits para endereyar. A decisilo sobre o numero de linhas e de colunas que um chip 
tem ć tornada por razóes de engenharia. A matriz nao precisa ser quadrada. 

Esses exemplos demonstrant duas qucstóes separadas e independentes para o projeto do chip de memória. A 
primeira ć a largura da salda (em bits): o chip entrega 1, 4, 8, 16 ou algum outro numero de bits de uma vez só? 
A segunda e se todos os bits de endereyo sao apresentados em pinos separados de uma vez só ou se as linhas e colu¬ 
nas sao apresenladas em seąiiencia, como nos exeinplos da Figura 3.31. Um projetista de chips de memória tem de 
responder a ambas as perguntas antes de inieiar o projeto do chip. 

3.3.6 RAMs e ROMs 

Todas as memórias quc estudamys atć aqui podem ser escritas c lidas. Essas memórias sao denominados 
memórias RAM (Random Access Memories memórias de acesso aleatório). que ć um nomc suspeito porquc 
todos os chips de memória tem acesso aleatório. No entanto, o termo ja ć muito corrcntc para quc nos livremos dele 
agora. RAMs podem ser de duas varicdades. cstaticas e dinamicas. Nas estiiticas (Stalle RAM — SRAMs) a eons- 
truyao interna usa cireuitos similarcs a nosso flip-flop D bdsieo. Uma das propriedades dessas memórias e que seus 
eonteudos sao consemdos enquanto houver tomeeimento de energia: segundos, minutos, horas e atć mesmo dias. 
As RAMs cstaticas sao muito rapidas. Um tempo de acesso llpico e da ordem de alguns nanossegundos e por essa 
razao clas sao muito usadas como mctnória cuchę dc nlvcl 2. 

RAMS dinamicas (Dynamie RAMs - DRAMs), ao contrario. nao usam flip-fiops. Em vez disso. uma RAM 
dinamica ć um arranjo de cćlulas. cada uma contendo um transistor e um pequenino capacitor. Os cupacitores 
podem ser carregados ou descarrcgados, permitindo que Os e ls sejam armazenados. Como a carga cletiica tende a 
vazar. cada bit cm uma RAM dinamica deve ser rcnovado - restaurado, recarregado - eom alguns milisscgun- 
dos dc intervalo para evitar que os dados desaparcyam. Como a lógica extcma e que tem de executar da rcnovayao, 
as RAMs dinamicas prccisam de uma interface mais complexa do que as estadeus, embora em muitas aplicayóes 
essa desvantagem seja compensada por suas maiores capacidadcs. 

Visto que RAMs dinamicas precisant de apenas um transistor c um capacitor por bit, cm comparayao com os 
scis transistores por bit para a melhor RAM estatiea. elas lem densidade muito alta (muitos bits por chip). Por essa 
razao. as memórias pnneipais quase sempre sao conslruldas com RAMs dinamicas. Contudo. essa grandę cupaci 
ilade tem um preyo: sao lentas (dezenas dc nanossegundos). Dessa maneira, a combinayao de uma cache de RAM 
estdticu e uma memória principai de RAM dinamica lenta eombinar as boas propriedades de cada uma. 
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Existcm diversos tipos de RAiVls dinamieas. A mais antiga oinda existcntc (cm computadores antigos) ć a 
DRAM FPM (Fast Page Modę — modo de pa giną nipida). Ela e organizada intemamentc como uma matriz de 
I bits e funciona da seguime maneira: o hardware escolhe um endercęo de linha e eniao selcciona endercęos de eolu- 
na um a um, como dc.screvemos para o RASe o CAS no contexto da Figura 3.30. Sinais explfcitos informam a mcmó- 
ria quando e hora de responder, de modo que ela funciona cm assincroniu com o relógio do sistemu principai. 

I A DRAM FPM foi substituida pola EDO (Extended Data Output — saidu de dados ampiiada). que pcrmite 

iniciar uma scgunda referenda a memóriu antes de ser concluida a rcferencia a mcmória prccedente. Essc porale- 
1 lismo simples niio acclerava uma rcferencia individual a memóriu, mas melhorava a largura de banda da mcmória, 

I resultando em mais palavras por segundo. 

FPM e EDO funcionavam razouvclmcnte hem quando os tempos de ciclo de chips dc memória cram de 12 
nanossegundos ou mais lentos. Quando os processadores licaram tao rapidos que realmcntc era preciso ter memó- 
rias mais rtSpidas, a FPM o a EDO foram substitufdas pcla SDRAM (Synchrnnous DRAM — DRAM sinerona), 
que ó uma hibrida dc RAM cstitica e dinfimica, comandada pclo relógio do sistema principai. A grandę vanlagem 
da SDRAM ć que o relógio elimina a neccssidudc dc sinais dc controle para informar ao chip de memória quando 
i responder. Em vez disso, a CPU inlorma i memória por quantos ciclos ela devc funcionar e entao a inicia. Em cada 
ciclo subscqiientc a memóriu entrcga 4. 8 ou 16 bits dependendo dc quantas linhas de saida ela tern. Eliminar a 
necessidadc dc sinais de controle aumenta a taxa de dados entrc a CPU e a memória. 

A melhoriu seguinte em rclaędo a SDRAM foi a SDRAM DDR l Double Data Ratę — dupla taxa dc dados i. 
Com essc lipo de mcmória o chip dc memória produz safda na horda uscendcntc do relógio e tambćm na burda des- 
cendente. dobrando a taxa de dados. Portanto, um chip DDR dc 8 bits de largura funcionando a 200 MHz entrega 
l dois valores dc 8 bits 200 milhóes de vezes por segundo (por um curto intervalo. e claro), o que da uma taxa de 
safda (bunt) de 3,2 Gbps. 

Chips de memória nao volatil 

RAMs nao sao o unico tipo dc chip de mcmória. Epi muitas aplicaęóes. como brinqucdos, clctrodomesticos e 
carros, o programu e alguns dos dados devem pcmianccer amiazenados mesmo quundo o fomecimcnto dc energia 
for interrompido Alćm do mais, urna vcz instalados. nem o programu nem os dados sao alterados. Esses requisitus 
lcvaram ao dcsenvolvimento de ROMs ( Read-Only Memories — memórias somente de leitura), que nao podem ser 
altcradas ncin apugudas. soja ou niio intencionalmcntc. Os dados de uma ROM sao inscridos durantc sua labncaęao 
por um proccsso quc expóe um materiał fotosscnsivc! por meio dc uma mascara quc contćm o padrao dc bits desc 
judo c eniao gruva o padrao sobre a superficic exposta (ou niio exposta). A tłnica maneira de mudar o programu em 
uma ROM ć substituir o chip intciro. 

ROMs sao muito mais barobus que RAMs quando fabricadas em olumes sulicientcmente grandes para eobrir 
o custo da fabricaęiio da mascara. Todnvia. sio inflexfveis porque niio podem ser altcradas após a manufatura. e o 
tempo dccorrido entre colocur o pedido e recebcr as ROMs pode chegar a semanas. Para facilitar o dcsenvolvimen- 
to pelas empresas de novos produtos com ROM foi inventada u PROM (Programmablc ROM — ROM programii- 
vc0. Uma PROM ć como uma ROM, exceto que ela pode ser programada (uma vcz) em campo. climinundo o tempo 
de espera entrc produęao e entrega. Muitas PROMs contćm um arranjo de mintisculos fusfvcis cm seu interior. Um 
fusfvel especffico pode ser queimado seleeionando sua linha e coluna e entao aplicando altu tensao a um pino espe- 
ciul no chip. 

O desenvolvimcnto seguinte nessa linha foi a F.PROM (Erasable PROM — PROM apagavel), que nao somen- 
tc pode ser programada. mas tumbom apaguda em campo. Quondo a janclu dc quurtzo dc uma EPROM e cxposta a 
uma forte luz ultravioicta durantc 15 minutos. todos os bits sao fixados em I. Se a cxpectaliva e ter muitas alleraęócs 
durantc o ciclo dc projeto. as EPROMs sao mais económicas do que as PROMs porquc podem ser reutiiizadas. 


Ci 

03 


Capitulo 3 0 Nivel Lóijtco Digital 



Organizaęao Estruturada de Compuladores 


T 


Tabela 3.2 Comparaęao entre varios tipos de memórias. 


1 Bpa 

Jl.; Categoria. 

1 Modo deapagar 

1 Byte aiteravei I 

Volatil | 

Utilizaęao tipica | 

SRAM 

Leitura/escrita 

Eletrico 

Sim 

Sim 

Cache de nivel 2 

DRAM 

Leitura/escrita 

Eletrico 

Sim 

Sim 

Memória principal (antiga) 

SDRAM 

Leitura/escrita 

Elśtnco 

Sim 

Sim 

Memória principal (nova) 

ROM 

Somente de leitura 

N3o e possivel 

Nao 

N3o 

Eąuipamentos e grandę volume 

PROM 

Somente de leitura 

Nao e possivel 

Ndo 

N3o 

Equipamentos e peąueno volume 

EPROM 

Principalmente leitura 

Luz UV 

Nao 

Nao 

Prototipagem de dispositivos 

EEPROM 

Principalmente leitura 

Elśtrico 

Sim 

Nao 

Prototipagem de dispositivos 

Flash 

Leitura/escrita 

Eletrico 

Nao 

N3o 

Filme para camera digital 


As EPROMS eostumam ter a mesma organizaęao que as RAMs estaticas. A EPROM 27C040 de 4 Mbits, por exem- 
plo, usa a organizaęao da Figura 3.31 (a), que e tfpica de uma RAM estatica. 

Ainda melhor do que a EPROM e a EEPROM. que pode ser apagada aplicando-se pulsos cm vez ser expos- 
ta ii luz uitraviolcta dentro de uma camara especial. Alem disso, uma EEPROM pode ser reprogramada no local, 
cnquanto uma EPROM tern de ser inserida em urn dispositivo especial dc programaęfio dc EPROM para ser progra- 
mada. Uma desvantagem e que a capacidadc das maiores EEPROMs normalmente e somente 1/64 da capacidade 
das EPROMs comuns. e sua velocidade e a metade. EEPROMs nao podem competir com DRAMs ou SRAMs por- 
que s&o 10 vczes mais lentas. sua capacidade ć 100 vezcs mcnor c sao muito mais caras. Elas sao usudas somente 
em situaęóes cm que sua nao-volatilidadc for crucial. 

Urn lipo mais reccnte de EEPROM e a memória flash {flash memory ). Diferentc da EPROM. que i apagada 
pela exposiędo a luz ultravioieta, e da EEPROM. cujos bytcs podem ser apagados, os blocos da memória flash 
podem ser apagados e rcescritos. Como u EEPROM, a memória flash pode ser apagada sem ser removida do cir- 
cuito. Varios fabricantes produzem pequcnas placas de circuito impresso com atć 1 GB dc memória flash que s5o 
utilizadas como um 'filme' para armazcnar fotos em cameras digitais e muitas outras finalidades. 

Algum dia as memórias rdpidus poderao ser usudas para substituir discos, o quc seria uma enormc melhoria, 
dados os tempos de acesso de 50 nanossegundos. O principal problemu de engcnharia no momento ć que elas se 
desgastam após serem apagadas cerca de 100 mil vezes. ao passo quc discos duram rauitos anos. nao importando 
quantas vezcs forem reescritos. A Tabela 3.2 aprcscnta um resumo dos vdrios tipos de memórias. 

3.4 Chips e barramentos de CPU 

Agora quc ja temos todas essas inlormaęóes sobre chips SSI, chips MSI e chips de mcmóriu, podemos come- 
ęar a juntar todus as peęas e examinar sistemas completos. Nesta seęao cstudarcmos primeiro alguns aspectos gcrais 
das CPUs do ponto de vista do mvcl lógico digital, incluindo pinagem ( pinouts ), isto e, o quc signiflcam os sinais 
dos vdrios pinos. Uma vcz que as CPUs estao tao cntrclaęadas com o projelo dos barramentos que utilizam, tam- 
bem faremos uma introduęao ao projcto de barramentos nesta seęao. Nas seęóes seguintes daremos exemplos deta- 
lhados de CPUs e seus barramentos c de como ć a interface entre eles. 

3.4.1 Chips de CPU 

Todas as CPUs modemas sao contidas em um tinico chip. o que faz com que sua intcraęao com o resto do sis- 
tema seja bem definida. Cada chip de CPU tern um conjunto de pinos por meio dos quais deve ocorrer toda sua 
comunicaęao com o mundo extemo. Alguns pinos produzem sinais da CPU para o munda extemo; outros aceitam 
sinais do mundo cxiemo: alguns podem fu/cr as duas coisas. Entcndendo a iunęao de lodos csses pinos, podemos 
aprender como a CPU interage com a memória e os dispositivos de E/S no nivel lógico digital. 

Os pinos de um chip dc CPU podem ser divididos em tres tipos: de endercęo. de dados c de eontrolc. Esses 
pinos'sao eonectados a pinos similares na memória e a chips dc E/S por meio de um conjunto de fios paralelos deno- 
minado barramento. Para buscar uma instruęao, em primeiro lugar a CPU coloca o endercęo de memória daquela 
instruęao cm seus pinos de endercęo. Entao eta ativa uma ou mais linhas de eontrolc para informar a memória que 
ela quer ler uma palavra, por cxcmpio. A memória rcsponde colocando a palavra rcquisitada nos pinos de dados da 
CPU e atwando um sinal que informa o que acabou dc fazer. Quando percebe esse smal. a CPU aceita u palavra e 
exccuta a instruęao. 

A instruęao pode requisitar leitura ou escrita de palavras de dados, caso em que todo o proeesso e repetido paru 
cada palavra adicional. Mais adiantc vamos enirar nos deialhes do modo de funcionamcnto da leitura e da escrita. 
Por enquanto, o importanle e entender que a CPU se comunica com a memória e dispositivos de E/S apresentando 
sinais em seus pinos e aceitando sinais em seus pinos. Nenhuma outra comunicaęao e possivcl. 

Dois dos parametros fundamentais que determinam o desempenho dc uma CPU sao o numero de pinos de 
endercęo e o numero de pinos de dados. Um chip com m pinos dc endercęo pode cndcreęar atć 2"* localizaęóes de 






Figura 3.32 

Pinagem lógica de urna CPU 
genenca. As setas indicam 


saida. Os segmentos de reta 
diagonals indicam cnie na o 
unhzados vanos pinos. Ha um 
numero que indica ąuantos 
sao os pinos para unia CPU 



memória. Valores comuns de m sdo 16. 20. 32 c 64. Dc modo semclhante, um chip com n pinos dc dados pode ler 
ou c.screver urna palavra de n blts cm urna unica operaęSo. Valorcs comuns de n sao 8. 16. 32, 36 e 64. lima CPU 
com 8 pinos dc dados efctuani guatro operaęócs para ler unia palavra de 32 bits, cnquanto urna CPU com 32 pinos 
dc dados pode cxeeutar a mesma tarefa cm urna unica operaęao. Assim, o chip com 32 pinos dc dados ć muilo raais 
rapido; porem. invariavclmcntc, tambćm ć mais caro. 

Alćm dos pinos dc endereęo e de dados. cada CPU tem alguns pinos dc conlrolc. Os pinos de controle regu- 
lam o !1uxo c a tcmporizaęao de dados quc vem da CPU e vao para cla alem dc ter outras utilizaęóes divcrsas. Todus 
as CPUs tóm pinos para energia cletrica (usualmente + 3.3 volts ou + 5 volts). para terra e para um sinai de relógio 
— ondu quadrada com um periodu bem definidu —, mas os ouiros pinos variam muilo de chip para chip. Nao obs¬ 
tanie. os pinos dc controle podcm ser agrupados aproximadamente nas categorias principais seguinles: 


1. Controle dc bamunenio. 

2. rntemipęóes. 

3. Arbitragcm dc barrumento. 

4. Sinalizaęuo dc eo-proeessador. 
s. Estado. 

6. Diversos. 


Logo farcmos u ma breve descrięao dc cada urna dessas categorias. Quando examinarmos os chips Pentium 4. 
UltraSPARC III e 8051 mais adiante, daremos mais detalhes. Um chip de CPU generico que usa esses grupos de 
sinais ć mostrado na Figura 3.32. 

A maioria dos pinos dc controle do barramento sao saidas da CPU para o barramento (e. portanto. entradas 
para a memória c chips de E/S) que informam se a CPU quer ler ou escrcvcr para a memória ou fazer outra coisa 
qualquer. A CPU usa esses pinos para oontrolar o ręsto do sistema e Ihc informar o que ela qucr fazer. 

Os pinos de interrup^ao sao entradas quc vem dc dispositivos dc E/S para a CPU. Em grandę parte dos sistc- 
mas a CPU pode dizer a um dispositivo dc E/S que inicie urna operaęao c entao continuar c fazer urna outra coisa 
qualqucr enquanto o dispositivo dc E/S cstii rcalizando scu trabalho. Quando a E/S esliver concluida, o chip contro- 
lador dc E/S ntiva um sinal cm um desses pinos para interromper a CPU e fazer com quc ela preste algum scrvięo 
ao dispositivo dc E/S. por cxemplo, veritique se oeorreram erros dc E/S. Algumas CPUs tfim um pino dc saida para 
rcconhcccr o sinal dc interrupędo. 

Os pinos de arbitragcm dc barramento s3o ncccssarios para disciplinar o trdfego no barramento de modo a 
impedir que dois dispositivos tentem usd-lo ao mesmo tempo. Do ponto dc vista da arbilragem. a CPU ć um dispo- 
silivo e tern dc rcquisitar o barrumento como qualqucr outro. 

Alguns chips de CPUs sao projetados para funcionar com co-proccssadorcs. como chips de ponto flutuante. 
mas as vezes lainbem com chips graficos ou outros chips. Para facilitar a comunicaęao entre CPU c co-processa- 
dor. ha pinos cspcciais dcdicados a fazer c uccilar rcquisięóes. 

Alem desses sinais. hd outros pinos divcrsos presentes cm algumas CPUs. Alguns Jelcs dao ou aceilam inior- 
maęóes de estado. outros sdo uteis para reiniciar o coinputador e outros mais estiio presentes para gamnur a com- 
patihilidade com chips de E/S mais anttgos. 

3.4.2 Barramentos de computador 

Barramento i um caminho cletrica comum entre vdrios dispositivos. Os barramentos podem ser cutegoriza- 
dos por sua funęao. Podem ser usados no interior da CPU para tnuisportar dados de e para a ALU ou podem ser 
e.\tcmos a CPU para conectd-la d memória ou a dispositivos dc E/S. Cada tipo de barramento tern seus próprios 
rcquisitos e propriedades. Ncsta seęao e nas seguintes focalizarcmos barramentos quc conectam a CPU a memória 
e a dispositivos de E/S. No capitulo seguintc cxaminaremos mais dc perto os barramentos intemos a CPU. 

Os primcims computadorcs pessoais tinhum somentc um barramento cxtcmo. ou barramento de sistema. quc 
consistia cm 50 a 100 fios de cobrc paralelos gravados na placa-mae. com conectores a intervalos rcgulares para 
tigoęSa com a mcmtiria c plucas dc E/S. Os computadorcs pessoais modemos em gcral tem um barramento de uso 
espeeial entre a CPU e a mcmóna e. ao menos. um outro barramento para os dispositivos dc E/S. Um sistema mini- 
mo. com um barramento de memória e um barramento dc E/S. ć ilustrado na Figura 3.33. 
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Figura 3.33 

Sistema de computador 
com vanos barramentos. 



Na literatura, as vezcs os barTamentos s;lo rcprcsenuidos por setas largas e sombrcadas. como na Figura 3.33. A 
distinędo entrc essas setas e urna linha reta cortada por um pcqucno segmentu dc reta inclinado acompanhado dc um 
numeru de bits e sutil. Quando todos os bits sao do mesmo tipo, por excmplo, todos sao bits de endercęo ou todos 
sao bits dc dados. portanto costuma ser usada a rcprcsentaęilo pelo segmento dc ruta diagonal. Quando estao envol- 
vidas linhas de endcrcęos. de dados e de controle, a seta larga sombreuda ć a mais comum. 

Embora os projetistas de CPUs tenham libcrdade para usar qualqucr tipo dc barramento que quiscrcm dentro 
do chip. para possibilitar a ligano dc placas projetadas por terceiros ao barramento dc sistema ć preciso havcr regras 
bem dellnidas sobrc o modo de funcionamento do barramento. as quais todos os dispositivos a ele ligados tem de 
abcdccer. Essas regras sao denominadas protoeolo de barramento. Alem disso, sao nccessarias espccilicaęóes 
mecanicas e cletricas, dc modo que placas de terceiros caibam no suportc da płaca e tenham conectores compati- 
vcis com os da placa-mńc, tanio em termos meeanicos quanto cm termos dc tcnsSes, tcmporizaęocs etc. 

Hd inumeros barramentos em uso no mundo dos computadores. Alguns dos mais cnnhecidos, no passado c 
atualmcnte (com excmplos), sao: Omnibus (PDP-8). Unibus (PDP-11). Muilibus (8086), barramento VME (equipa- 
mento para laboratório de lisica), barramento IBM PC (PC/XT). barramento ISA (PC/AT), barramento EISA 
(80386), MicroChannel (PS/2), Nubus (Macintosh), barramento PCI (muitos PCs), barramento SCSI (muitos PCs e 
estaęóes de trabalho), Universal Serial Bus (PCs modcmos) e FircWirc (equipamcntos elctrónicos dc consumo). O 
mundo provavelmente seria um lugar melhor sc todos os barramentos, menos um. dcsaparcccssem repentinamente 
da face da Terra - vu ld, dois, entao. Infelizmentc. a padronizaęao nessa arca parcce muito improvavel porque muito 
dinheiro jd foi invcstido em todos esses sistemus incompaU'vcis. 

Agora vamos iniciar nosso estudo do funcionamento dos barramentos. Alguns dispositivos ligados a um bar¬ 
ramento sao ativos e podcm iniciar transfereneias no barramento. ao passo que outros sao passivos e esperom requi- 
sięócs. Os ativos sao denominados mestres; os passivos siło denominados escravos. Quando a CPU ordena a um 
controlador que leia ou escreva um bloco, cla estd agindo como mestre e o controlador de disco, como cscravo. 
Todavia, mais tarde, o controlador dc disco pode agir como um mestre quando munda a memória aceitar as pala- 
vras que sao lidas do drivc de disco. Vdrias eombinaęfles tlpicas mestre-escravo estao relacionadas nu Tabela 3.3. 
Em nenhumu circunstUncia a memória pode ser mestre. 

Os sinais binarios emitidos por dispositivos de computador muitas vezcs sao muito fracos para energizar um 
barramento. cm especial se ele for re!ativamcnte longo ou tiver muitos dispositivos ligados a ele. Por cssa razao. a 
maioria dos mestres de transferencia de dados estd concctada a ele por um chip denominado controlador de bar¬ 
ramento. que e. em essfincia. um amplilicador digital. De modo semclhantc. grandę parte dos cscravos esta concc¬ 
tada ao barramento por um receptor dc barramento. Quundo dispositivns podcm agir como mestres c tumbom 
como escravos. e usadn um chip combinado denominado trunsccptor de barramento 

Os chips de interfacc de barramento muitas vezcs sao dispositivos dc tres estados. o que perm i te que flulucm 
(se desconectcm) quando nao sao necessarios ou entao se concctcm de modo um tanio diferenie denominado cole- 
tor a berto que consegue um efcito sintilor. Quando dois ou mais disposuivos em urna linha de coletor aberto ati- 
vam a linha ao mesmo tempo, o resultado e o OR hooleano de todos os sinais. Essc arranjo costuma ser denomina¬ 
do OR cabeado (w i red ar). Nu inuioria dos barramentos algumas das linhas siło dc trćs estados. e oulras, quc 
precisam da propriedade OR cabeado. sdo de colclor aberto. 

Tanela 3.3 Exempios de mestres e escravos de barramentos. 







Assim como uma CPU, um barramento tambem tem linhas de endereęo. de dados e de controle. Contudo. nao 
ha necessariameme um mapeamento um para um entre os pinos da CPU e os sinais do barramento. Por excmplo, 
algumas CPUs tćm tres pinos que codiftcam se eia esui fazendo uma loirura de memória, uma escrita na memória, 
uma leitura de E/S, uma escrita de E/S ou alguma outra operaęao. Um barramento tfpico pode ter uma linha para 
leitura da memória. uma segunda para escrita na memória. uma tcrccira para leitura de E/S, uma quarta para escri¬ 
ta de E/S c assim por diante. Nesse caso seria neccssario um chip dccodificador entre u CPU e o barramento para 
compatibilizar os dois lados. isto e, converter o sinal de 3 bits codificado em sinais separados que pi Hieni eoman- 
dar as iinhas do barramento. 

Projelo e operaęao dc barramento sao questóes de tamanha complexidade que ha inómeros livros escritos ape- 
nas sobrc elas (Anderson cl al„ 2004: Solari e Willse, 2004). Os principais tópicos do projelo de barramento sao 
largura de barramento. rclógio de bammenio. arbitragem dc barramento c operaęoes dc barramento. Cada um des- 
ses tópicos tem impacto substancial sobrc a vclocidadc e a largura de banda do barramento. Agora examinaremos 
cada um dclcs nas ąuatro seęfles seguintes. 

3.4.3 Largura do barramento 

A largura do barramento e o parametru de projeto mais óbvio. Quanto mais linhas de endereęo tiver um bar- 
ramenlo, mais memória a CPU pode endercęar diretamente. Se um barramento tiver n linhas de endereęo, entao uma 
CPU pode usó-las para endercęar 2" localizaęóes de memória diferentes. Para memórias de grandę porte os barra- 
mentos prccisam de muitas linhas de endereęo, o que parece ulgo bem simples. 

O problemu e que barramentos lurgos prccisam de mais fios do quc os estreitos. c tambem ocupam mais espa- 
ęo fisico — por exemplo, na placa-mae —. alem de prccisar dc conectorcs maiores. Todos esses fatorcs cncareccm 
o barramento e por causa disso ha um compromisso entre tamanho maximo de memória c custo do sistema. Um sis- 
tema com barramento de endereęo dc 64 linhas e 2 32 bytes de memória custura mais do que um sistema com 32 
linhas de endereęo e os mesmos 2 n bytes dc memória. A possibilidade de expansao posterior niio e gratuita. 

O rcsultado dessa obscmęao ć que muitos projetistas de sistemas tendem a ser miopes. o que provoca conse- 
qiiencias desastrosas mais larde. O IBM PC original continhu uma CPU 8088 e um barramento de endereęo dc 20 
bits, como mostra a Figura 3.37(a). Os 20 bits permitiam ao PC endercęar I MB de memória. 

Quando lanęou seu próximo chip de CPU (o 80286), a Intel decidiu aumentar o espuęo de endereęo para 16 MB, 
por isso prccisou adicionar mais quatro linhas de barramento (sem perturbar as 20 originais. por razóes dc compa- 
tibilidadc), como ilustrado na Figura 3.34(b). Intelizmentc, mais linhas de controle tivcram de ser acrescentadas 
para iidar com as novas linhas dc endereęo. Quando o 80386 foi lanęado, mais oito linhus de endereęo forum acres¬ 
centadas. junto com ainda mais linhas dc controle. como mostra a Figura 3.34(c). O projeto rcsultante (o banramen- 
to EISA) ć muito mais confuso do que seria se o barramento tivessc 32 linhas desde o inicio. 

N3o e apenas o numeru de linhus dc endereęo quc tendc a crescer com o tempo, mas tambćm o numero dc 
linhas dc dados, porem por uma razao um pouco diferente. HA dois modos de aumentar a largura de banda dc dados 
de um barramento: reduzir o ciclo de tempo de barramento (mais transferćncias por segundo) ou aumentar a largu¬ 
ra de dados do barramento (mais bits por transfercncia). Acclerar o barramento e poss(vel, mas diffcil. porque os 
sinais trafegam em linhas dircrcntes com vclocidades ligeiramenle diferentes. um problemu conhecido como atra- 
so diferencial do barramento. Quanto mais rapido o barramento, mais serio se tomu o atraso difercncial. 

Um outro problemu com a acelcraęao do barramento e quc isso nao sera compat(vel. Placas antigas projetadas 
para os barramentos mats lentos nao funcionarao com o novo barramento. Invalidar as placas antigas descontenta- 
ni niio somente os proprietiirios dessas placas. mas tambćm os fabricantcs. Por consegumte, a ićcnica quc costuma 
ser adotada para melhorar o desempenho ć adicionar mais linhas de dados. de forma analogu ii Figura 3.34. Todavia, 
como era de esperar. esse crescimento incrcmental ńao leva a um projeto limpo. O IBM IKT e scus sucessores, por 
exemplo. passaram de oito linhas de dados para 16 e em seguida para 32, conservando praticamente o mesmo bar 
ramento. 

Para contomar o problemu de barramentos muito largos. as vez.es os projetistas oplam por um barramento 
multiplesado. Nesse projelo. em vcz de as linhus de endcrcęos e dados serem separadas. hu. por exemplo, 32 iinhas 
pani endcrcęos e dados juntos. No infeio de uma operaęao de barramento as linhas sao usadas para o endereęo. 



(a) ib) (e) 
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Mais tarde. sao usadas para dados. Para urna cscrita na memória, por exemplo. isso significa que as linhas de ende- 
rcęo devcm ser eslabelecidas c propagadas para a mcmória antes que os dados possani ser colocados no barramen- 
to. Com linhas scparadas. cndcrcęos e dados podcm ser colocados juntos. Multiplexar as linhas reduz a largura (e 
o custo) do barramento, mas resuJta cm um sistcma mais lento. Quando tomam suas dccisóes, os projetistas dc bar- 
ramcnto tćm dc pesar cuidadosaincnte todas essas opęócs. 

3.4.4 Relógio do barramento 

Barramentos podem ser divididos cm duas catcgorias distintas dcpcndcndo de seu relógio. Um barramento 
sinernno tem urna linha comandada por um oscilador de cristul. O sinuJ nessa linha consistc cm urna onda quadra- 
da com urna Ircq(iencia cm geral entre 5 MHz c 1(X) MHz. Ttxlas as atividadcs do barramento tomam um numero 
inteiro desses ciclos denominados cicłos de barramento. O outro lipo de barramento. o barramento assineronn, 
nao tern um relógio mestre. Ciclos dc barramento podcm ter qualquer largura requcrida e niio sio os mesmos entre 
uxlos os pares dc dispositivos. A seguir estudaremos cada tipo de barramento. 

Barramentos sineronos 

Como cxctnplo do funeionamento dc um barramento sinerono, considcrc o diagrama tcmporal da Figura 
3.3S(a). Nessc cxcmplo usarcmos um relógio de 100 MHZ, que di um ciclo dc barramento dc 10 nanossegundos. 
Embora isso possa parcccr um tanto lento cm comparaęao com vclocidades dc CPU de 3 GHz ou mais, poucos bar- 
ramentos dc PCs exislentes sio muito mais ripidos. Por cxcmplo, o popular barramento PCI usualmente funciona 
a 33 MHz ou 66 MHz. As razóes por quc os barramentos amuis sao lentos foram dadas anteriormente: problcmas 
tecnicos dc pnijeto, como atraso diierencial de barramento c neccssidade de compalibilidade. 

Em nosso exemplo admitircmos ainda mais que ler da mcmória leva IS nanossegundos a partir do instantc cm 
que o cndercęo estd estivel. Como vercmos em hreve, com esses parametros, ler urna palavra levara tres ciclos de 
barramento. O primeiro ciclo comcęa na borda ascendcnte dc T, e o terceiro termina na borda ascendentc dc T 4 , 
como moslra a ligura. Obscrve que nenhuma das bordas ascendentes ou descendentes foi desenhada na linha veni- 
cal porque nenhum sinal cletrico pode trocur seu valor em tempo zero. Ncsse cxcmplo admitircmos quc leva I 
nanossegundo para o sinal mudar. As linhas de relógio, ADDRESS. DATA, MREQ. RD e WAIT. estao todas rcpresen- 
tadas na mesma escala de tempo. 

O infcio de T, e definido pela borda ascendentc do relógio. A mcio caminho de T, a CPU coloca o cndercęo 
da palavra que ela quer na linha de cndercęo. Como o endereęo nao e um valor tinico. como o relógio, nao podc- 
mos mostra-lo como urna linha unica na ligura — por isso ele e mostrado como duas linhas que se cruzam no ins- 
tante em quc o cndercęo muda. Alem disso, a aren sombreada antes do cruzamcnto indica que o valor nessa irca 
nao ć importante. Usando essa mesma convenęao, vemos que o contetido das linhas dc dados nao ć signilicativo atć 
urna boa poręao dc T> 

Depois que as linhas de endereęo rivcrcm urna chancc de se aconiodar a scus novos valores. MREQ c RD sio 
ativados. O primcim indica que e a mcmória — c nio um dispositivo de E/S — que esti sendo acessada c o segun- 
do e ativado (valor 0) para leituras c negado (valor 1) para escritas. Urna vcz quc a memória lcva 13 nanossegun- 
dos após o endereęo estar estavcl (a meio caminho no primeiro ciclo de relógio). ela nao pode entregar os dados 
requisitados durante T>. Para dizer i CPU que nio os espere. a memória assegura a linha WAIT no infcio de T 2 . Essa 
aęao inserini estados de espera (ciclos extras de barramento) ate que a memória conclua e desative WAIT. Em nosso 
exemplo foi inscrido um estado dc espera (T>) porque a memória ć muito lenta. No infcio de T 3 , quando esla certa 
dc quc teni os dados durante o ciclo corrente. a memória nega WAIT. 

Dumnie a primeira metadc dc T 3 , a memória coloca os dados nas linhas dc dados. Na borda descendentc de 
T, a CPU mostra a linha dados. isto ć. le a linha. e armazena (latching) o valor em um rcgisirador interno. Após ler 
lido os dados. a CPU nega MREQ e RD. Se lor preciso. um outro ciclo de memória pode comcęar na próxmia bonia 
ascendcnte do relógio. Essa seq(lencia pode ser repelida indefinidamente. 

No diagrama temporal da Figura 3.35(U) esclarecemos melhoroito simbolos que apareccm no diagrama. T AU , 
por exemplo. e o intervalo de icmpo entre a borda ascendcnte do relógio T, e o cstabelecimcnto das linhas de ende¬ 
reęo. Conforme a especificaęao de tcmporizaędo, T At3 ^ 4 nanossegundos. Isso significa quc o fabricante da CPU 
garantc que durante qualquer ciclo de leitura a CPU entregurd o endereęo a ser lido denlro de 4 nanossegundos a 
partir. do ponlo medio da burda ascendentc de T ( . 

As especificaęóes de temporizaęio tamhem requerem quc os dados estejam disponivcis nas linhas de dados no 
mfnimo Tqs (2 nanossegundos) antes da borda descendentc de T } para lhcs dar tempo para se acomodarem antes 
que a CPU os leia. A combinaęao de rcstrięóes impostas a T AD e T DS significa que, na piór das hipóteses. a memó¬ 
ria tera somente 25 4 2=19 nanossegundos desde o instantc em quc o endereęo aparece ate o insumle em que 

ela deve pniduzir os dados. Como 10 nanossegundos e suficiente, atć mesmo no piór caso. urna memória dc 10 
nanossegundos sempre pode responder durante T,. Urna memória de 20 nanossegundos, entrctanto. perderia o 
momentu por pouco e teria de inscrir um segundo estado de espera c responder durante T 4 . 

A cspccificaędo de temporizaęao garantc ainda mais quc o endereęo serd estabelecido pelo menos 2 nanosse¬ 
gundos antes dc MftEÓ ser ativado. Esse tempo pode ser importante se MREÓ comundar a seleęao de chip no chip 
dc memória porque algumas inemórias requerem um tempo de estabelecimento de endereęo antes da seleęao do 
chip. Claro que o projetista do sistema nao deve escolher um chip de memória que necessite de um tempo de esta- 
belecimcnto de 3 nanossegundos. 
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Figura 3.35 
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As limitaijóes impostas u T iV1 e T łU- signitlcam quc ambos, MREQ e RD. serao alivados dentra dc 3 nanosse¬ 
gundos a partir da horda descendente T, do relógio. No piór caso, o chip de memória tera somcntc 10+10 -3-2 
= 13 nannsscgundos após a asseręao de MREQ e RD para lcvar scus dados aić o barramento. Essn limitaęao e adi- 
cional ao (c independentc do) inicrvnlo de 15 nanossegundos neccssario após o endereęo estar estavcl. 

T M || e T r „ informam quanto tempo leva para MREQ e RD serem negados após a Ieitura dos dados. Por fim. 
T UH informa por quanto tempo a memória deve sustentar os dados no barramento após a ncgaęao de RD. No que 
diz respeito a nosso exemplo de CPU, a memória pode rcmovcr os dados do barramento tdo logo RD tenha sido 
negado: ent ulgumas CPUs modemas. contudo. os dados devcm ser conservados estavcis durante um pouco mois 
dc tempo. 

Gostariamos dc destaear quc a Figura 3.35 ć uma vcrs2o muito simpliiicada das rcstrięócs rcais dc tempo. Na 
realidadc, semprc sao especillcados muitos mais tempos criticos. Ainda assim, ela nos da uma boa ideia do modo 
de funcionamento de um barramento sincrono. 

Uma ultima coisa que vale a pena mencionar e quc sinais dc controle podcm ser ativados baixos ou altos. Cabe 
aos projetistas do burratnenlo determinur o que e mais convenicnte, mas a escolha e, em essenciu. urbitniria. 
Podcmos considera-la como o equivalente em hardware ii decisao quc o programador toma dc representar hlocos de 
discos Iivres em um mapa ile bits como Os ou Is. 

Barramentos assineronos 

Embora seja-tacil trabalhar cont barramentos sineronos por causa de seus intcrvalos discretos dc tempo, eles 
tambem tern alguns problemas. Por cxcmplo, tudo funcionu como multiplos do relógio do barramento. Ainda que 
CPU c memória possam concluir uma Iransferencia em 3.1 ciclos. elas terno de prolongar o ciclo atć 4.0 porque 
ciclos fracionarios sito proibidos. 

Piór ainda. uma vez eseoihido o ciclo do barramento e construidas placas de memória e E/S para cle, e diftcil 
upnweitar łuturns avanęos da tecnologta. Por cxcmplo. suponlia quc alguns anos após a construęao do sistema da 
l ; igura 3.35 sejam langadas novas memórias com tempos de accsso de 8 nanossegundos em vcz dc 15 nanossegun- 
dos. quc eliminam o estado dc espera e dao mais vclocidade a maqutna. Entao suponha que sejam langadas memó- 
rias de 4 nanossegundos. Nao haveria nenhum ganho adicional de desempenho porquc. com esse projeto. o tempo 
minimo para uma Ieitura e doi.s ciclos. 

Exprimindo esses fatos em termos ligeiramente diferentes, sc um barramento sincrono tiver urna cołeęao hete 
rogenea de disposilivos. alguns rjpidos. alguns lentos. o barramento tern dc ser ajustado para o mais lento, e os mais 
rapidos nao podcm usar todo o seu potcncial. 
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Podc-se utilizar tccnologia misia passando para um barramento assfncrono. isto ć, que nao lenha um rclógio 
mestrc. como mostra a Figura 1.36. Em vez dc vincular ludo ao rclógio. quando o mcstrc de trunsfercncia dc dados 
tivcr ativado o endereęo, MREQ. RD c ludo o mais que precisa. ein scguida assegura um sinal cspecial que dcnomi- 
naremos MSYN (Master SYNchronizalion). Quando o escravo ve esse sinal. rcaliza o irabalho com a maior rapidez 
que puder e, ao concluir essa ta.se. aiiva SSYN (Slave SYNchronizalion). 

Assim que o mestrc pcrceber SSYN ativado, cle sabc que os dados cslilo disponweis, portanto cle os serializa 
c cniiio desaiiva as linhas dc endereęo, junto com MREQ. RDc MSYN. Quando o cscravo percebe a negaęao de MSYN 
, sabc quc o ciclo foi concluido, portanto nega SSYN. c voltamos a situaędo original. com todos os sinais negados. 
esperando pelo próximo mcstrc. 

Diagramas ternporais dc barramentos assfncronos (e as vczes tambćrn os de barramentos smeronos) usam setas 
para mostrar causa c cfcilo. como na Figura 3.36. A ativaęilo de MSYN faz com que as linhas de dados sejam ativa- 
das c tambem faz com que o cscravo ative SSYN. A auvaęao de SŚYN. por sua vez. causa a negaęao das linhas de 
endereęo. MREÓ, RDc MSYN. Por firn. a negaęao de MŚYN causa a negaęao de SSYN, que conclui a leimra e retor- 
na o sistema a scu estado original. 

Um conjunto de sinais quc se interligam dessa mancira ć denominado operaęao cumplela. A parte essencial 
consiste em quatro cvcntos: 

1. MSYN e ativado. 

2 . SSYN ć ativado cm resposta a MSYN . 

3. MSYN ć negado em resposta a SSYN. 

4. SSYN e negado cm resposta h negaęao de MSYN. 

E preciso que lique claro que operaęócs completas sao independentes de temporizaęao. Cada cvcnto e causa- 
do por um evento anterior c nao por um pulso de rclógio. Se determinado par mcstrc-cscravo for lento, nao afeta- 
rd. dc modo algum, um par mestre-escravo subscqucntc, que e muito mais rapido. 

Agora, a vantagem dc um barramento assfncrono jd dcvc estar bem clara. mas a verdude e que a maioria dos 
barramentos e stnerona. A razao ć que e mais fdcil construir um sistema sfnerono. A CPU apenas ativa seus sinais 
c a memória apenas reage. Nao ha realimentaęao (causa e efeito) mas. sc os componentcs foram escolhidos adcqua- 
damente, ludo funcionard sem dependćncia. Alćm disso. hd muito dinheiro invcstido na tccnologia do barTamento 
sfnerono. 

3.4.5 Arbitragem de barramento 

Atć aqui ticou suhentendido que hd somente um mestrc dc transferćneia dc dados. a CPU. Na rcalidade. chips 
de E/S tćm de se tomar mestres dc transfcrćncia dc dados para ler c cscrevcr na memória e tambćrn para causar 
intcrrupęócs. Co-proccssadores podem prccisar se tomar mestres dc transfcrencia dc dados adicionalmcntc. Entao 
surge a pergunta: ‘O que acootece sc Jois ou mais dispositivos quiscrcm se tomar mestres de iranstćrencia dc dados 
ao inesmo tempo?”. A resposta ć que ć preciso algum niecanismo de arbitragem para evitar o caos. 

Mecunismos de arbitragem podem ser ccntralizadas ou descentralizados. Em primciro lugar vamos considerar 
a arbitragem eentralizada. Urna forma particularmente simplcs de arbitragem centralizada e mostrada na Figura 
3.37(a). Ncssc csqucina. um umco arbitro dc barramento detcrmina qucm entra em scguida. Muitas CPUs contem 
o arbitro no chip de CPU. mus as vezes ć preciso um chip separado. O barramento contćm uma unica linha de requi- 
sięao ()R cabcada quc pode ser assegurada por um ou mais dispositivos a qualqucr tempo. Nao ha nenhum modo 
dc o arbitro dizer quantos dispositivos rcquisitaram o barramento. As unicas categorias quc ele pode distinguir sao 
algumas rcquisięóes e nao-requisięócs. 

Quando o arbitro vć uma rcquisięao de barramento. cmite uma concessao que ativa a linha dc conccssao de 
barramento. Essa linha estii ligada a todos os dispositivos dc F7S cm sćric. como um cordao dc liimpadas baratas 
de arvorc dc Natal. Quando o dispositivo que esia tisicamentc mais próximo do arbitro vć a concessao. verificu 
para conlirmar se fez uma requisięao. Caso positivo. o dispositivo toma o barramento. mas nao passa a conces¬ 
sao adiante nu linha. Sc nao fez uma rcquisięao. cle propaga a concessOo atć o próximo dispositivo na linha quc 
se comporta da mesma mancira. c assim por dianie, ate algum deles accitar u concessao e tomar o barramento. 




Figura 3.37 
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F.sse e.squema e denominado cncadeamento em serie [daisy chaining). Ele tem a propriedadc de designar 
prioridades aos disposiiivos dependendo da distancia entre eles e o arbitro, O que estiver mais ptrótimo vencc. 

Para oontornar as prioridades impheitas baseudas na distiincia cm relaęao ao arbitro, muitos barrnmentos tem 
vdrios niveis dc prioridade. Para cada mvel de prioridadc ha uma linha de rcquisięao de barramento c uma linha de 
concessao de barramento. O barramento da Figura 3.37(b) tem dois mveis. 1 e 2 (barramentos reais eostumam ter 
4,8 ou 16 nfveis). Cada dispositivo esta ligado a um dos nivcis de rcquisięao do barramento, sondo que os mais cri- 
ticos cm relaęao ao tempo estao ligados aos nfvcis de prioridade mais alias. Na Figura 3.37(b) os dispositivos 1, 2 
c 4 usam prioridade 1, cnquanto os disposilivos 3 e 5 usam prioridade 2. 

Se vdrios nivcis de prioridade sao rcquisitados ao mesmo tempo, o arbitro emite uma concessao somente ao 
de prioridadc mais alta. Entre os dispositivos da mesmu prioridadc e usado o cncadeamento cm sćrie. Na Figura 
I 3.37(b), se ocorrer algum confiito. o dispositivo 2 vence o dispositivo 4, que venee o 3.0 dispositivo 5 tem a menor 
prioridadc porque esui no finał da linha dc cncadeamento de menor prioridade. 

A propósito, tccnicamentc nao ć necessario ligar a linha de concessao dc barramento de nfvcl 2 cm serie pus- 
sando pelos disposilivos I e 2, uma vez quc eles nto podem fazer rcquisięóes nessa linha. Contudo, por eonvenićn- 
cia Uc impletnentaęao, o mais facil ligar todas as linhas dc concessao passando por todos os disposiiivos, etn vez de 
fazer ligaęóes especiais que dependem da prioridade dc cada dispositivo. 

Alguns arbitros tem uma tcrceira linha que um dispositivo ativa quando aceita uma concessao c pega o barra- 
mento. Tao logo tenha atirudo essa linha dc reconhecimento, as linhas de requisiędo e concessao podem ser nega- 
das. O rcsultado e que outros disposilivos podem requisitar o barramento enquanto o primeiro dispositivo o estiver 
usando. No instantc cm que a transferencia em qucstao for concluida, o próximo mestre dc transferćncia dc dados 
ja tera sido selccionado. Ele pode comeęar logo quc a linha dc rcconhecimcnto tenha sido negada. quando entao 
pode ser iniciada a próxima rodada de arbitragem. Esse csquema rcqucr uma linha de barramento extra e mais lógi- 
ca cm cada dispositivo, m:is faz melhor uso de ciclos de barramento. 

Em sisicmas cm que a memdria esta no harramcnlo principal. a CPU devc competir pelo barramento com todos 
os dispositivos dc E/S cm pralicamentc todos os ciclos. Uma soluęao comum para essa situaęao e dar ii CPU a prio- 
ridadc mais baixa. de modo que cła obiciu o barramento somente quando ningućm mais o quiscr. Ncsse easo. a idćia 
d que a CPU sempre pode esperar. mas os dispositivos de E/S muitas vezcs preeisam adquiriro barramento rapida- 
mente ou entao pertlcm os dados que ehegam. Discos que giram a alta veloctdadc nao podetn esperar. Em muitos 
sisicmas modemos dc computadores esse problemu e evitado ao se coiocar a memória em um barramento sepurudo 
dos dispositivos de E/S de modo que estes nao tenham dc competir pelo uccsso ao harramento. 

Tambóm e possivcl arbitragem de barramento desccntralizada. Por cxcmplo. um compuiador ptrderia ter 16 
linhas dc requisięao de barramento priorizadas. Quando um disposilivo quer usar o barramento. ussegura sua linha 
de rcquisię3o. Todos os dispositivos monitoram todas as linhas dc rcquisięao. de tmxlo que. ao tinul de cudu ciele 
de barramento. cada dispositivn sabe se foi o requisitante de prioridade muis altu c. portanto, se tem permissao dc 
usar o barramento durantc o próximo dclo. Comparado a arbitragem ccntralizada. o metodo desccntraiizado requcr 
mais linhas de barramento. mas eviia o custn potcncial do arbitro. Altim disso, limita o niimcro dc dispositivos ao 
ntimero de linhas de rcquisięao. 

Um outnr tipo de arbitragem dc barramento dcsccntralizuda. mostrudo nu Figura 3.38. usa apenas tres linhas. 
niio importando quantos dispositivos csiiverctn presentes. A primcira linha de barramento ć uma linha OR cabcada 
para requisitar o barramento. A segunda linha de barramento ć denominada BUSY c e ativada pelo mestre de trans¬ 
ferencia de dados corrcnlc. A tcrceira linha e usada para arbitrur o barramento. Ela esta ligada por cncadeamento 
em serie a todos os disposiuvos. O inido dessa cadeia e ativado iigando-o a uma fon te de energia de 5 volts. 
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Flaura 3.38 
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descentraJizada. 
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Quando ncnhum dispositivo quiser o barramento. a linha de arbilragem ativada e pmpagada por todos os dis- 
positivos. Para adquirir o barramento. um dispositivo primeiro verifica para vcr se o barramento esti ocioso c se o 
sinal de arbitragem que esta reccbendo. IN (ENTRADA). esta alivado. Sc IN (ENTRADA) estivcr negado, o disposi- 
tivo em questao nar) pode se tomar o mestre de transfereneia de dados e o sinal OUT (SAIDA) e negado. Entrctanto. 
se IN lor ativado, o dispositivo nega OUT, o quc faz com quc sou vizinho seguinte na eadeia vcja IN negado e neguc 
seu próprio OUT. Dat. todo os dispositivos depois dele na eadeia vecm IN negado e. por sua vez. negam OUT. 
Quando o processo terminar. somente um dispositivo tera IN alivado e OUT negado. e <5 cle que se toma o mestre 
dc transfereneia dc dados. ativa BUSY e OUT c inicia sua transfereneia. 

Um pouco dc raeiocfnio revelard que o dispositivo mais d csqucrda que quiscr o barramento o obtćm. Assim, 
csse csquema e similar i arbilragem original por eneadeamento em serie, eom u exeei;ao de nao ter o arbitra. Por 
isso e mais barato. mais rapido e nao estd sujcito a falha dc arbitra. 


3.4.6 Operacóes de barramento 


Ate agora, diseutimos apenas cielos de barramentos comuns. com um mestre (normalnienie a CPU) lendo dc 
um escniYo ou escrcvendo para ele (nonnalmenle a memória). Na verdadc, existcm vdrios outros tipos de eiclos de 
barramento. Em seguida vamos estudar alguns deles. 

Normalmente só urna palavra 6 transferida por vez. Contudo. quando e usado eaching, e dcscjuvel busear uma 
linha intcira de cachc (por exemplo, 16 pa!avras de 32 bits eonsccutivas) por vez. Transferencias de blocos costu- 
mam ser mais cficicntcs do que transferencias individuais sueessivas. Quando uma leilura dc bloco ć iniciada. o 
mestre dc transfereneia de dados informa ao escravo quantas palavras scrao uansferidas. por cxcmplo. coloeando o 
numeru de palavras nas linhas dc dados durante T,. Em vcz de rctomar apenas uma palavra. o cscravo entrcga uma 
palavra durante cadu eiclo ate esgotar aquclc n umeru de palavras. A Figura 3.39 mostra uma vers2o modilicuda da 
Figura 3.35(a), mas agora eom um sinal extra. BŁOCK . que ć ativado para indicar que foi requisitada uma transfe- 
rencia de bloco. Ncsse cxcmplo. uma leilura de bloco de 4 palavras demora 6 cielos em vez de 12. 

Hd tambem outros tipos dc cielos de barramento. Por cxcmplo, em um sistemu multiprocessador com duas ou 
mais CPUs no mesmo barramento. muitas vczes e ncccssdrio guranlir quc só uma CPU por vez use alguma estru- 
tura dc dados critica na memória. Um modo tfpieo dc organizar isso ć ter uma variavcl na memória que e 0 quan- 
do nenhumu CPU cstiver usundo a estru tura de dados e I quundo esta estiverem uso. Se uma CPU quiscrobter aces- 
so ii esirutura dc dudos. dcvc ler a variavel. e, se esta for 0, passa-la para I. O prohlcma ć quc. com um pouco dc 
mti sortc. duas CPUs podcm ler a variavel em eiclos de barramento eonsccutivos. Se eada uma perceber que a varia- 
vel e 0. enlao eada utną passa a variavel para 1 e acha que 6 a tinica CPU que estd usando a esirutura de dados. Essa 
scqtiencia dc evcnlos lcva ao caos. 

Para cvitar essa situaęao, sistemas multiprocessadores costumam ter um eiclo de barramento especial lcr-modi- 
licar-escrever que permite a qualqucr CPU ler uma palavra da memória, inspecionar e ntodificar essa palavra, e 
cscrcvć-la novamcnte na memória. tudo sem liberar o barramento. Essc tipo de eiclo evita que unyi CPU rival possa 
usar o barramento c assim interferir com a operaęao da primeira CPU. 
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figura 3.40 

Uttlizaę3o do controlador 
de internipcdo B259A. 
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Um outro lipo imponantc dc ciclo dc barramento <5 o usado para manipular intcrrupęóes. Quando ordena quc 
um dispositivo dc E/S faęa algo. a CPU normalmenic espera uma interrupęao quando o trabalho lor conclufdo. A 
sinali/aęao da inicrnipędo rcquer o barramcnio. 

Urna vez quc varios dispositivos podem quercr causar uma interrupęao simultancamcnlc. os mcsmos tipos dc 
problcmas dc arbitragem que livcmos nos cielos dc barramento comuns tambćm estao presentes aqui. A soluęao 
usuaJ e atribuir priondadcs a dispositisos c usar um drbitro ccnlralizado para dar priondadc aos dispositivos mais 
crfticos cm rclaęSo ao tempo. Existem chips controladorcs dc interrupęao padronizados que s3o muito usados. O 
IBM PC c todos os seus sucessorcs usam o chip Intel 8259A. ilustrado na Figura 3.40. 

Ale oito chips controladorcs dc E/S podem ser conectados diretamente as oito entradas lRx (Interrupt Rcqucst) 
do 8259A. Quandt) quaisqucr desses dispositivos quiser causar uma interrupęao, ele ativa sua linha dc entrada. 
Quando uma ou mais entradas sao ativadas. o 8259A ativa INT (LNTerrupęao), quc aciona diretamente o pino dc intcr¬ 
rupęao na CPU. Quando a CPU puder manipular u interrupęao, ela devolve o pulso ao 8259A por INTA (INTerrupt 
Aeknowledge — rcconhcciinento de interrupęao). Ncsse ponto o 8259A deve cspcciftcar qual entrada causou a inter- 
rupęao passando o numero daqucla entrada para o barramento dc dados. Essa opcraęao rcqucr um ciclo dc barramen¬ 
to cspccial. Entiio o hardware da CPU usa esse numero para mdcxar cm uma tabela de pontciros, denominados veto- 
res dc interrupęao. para achar o endereęo do proccdimento a exccutar para atender 3 interrupęao. 

No interior do 8259A hd diversos registradores que a CPU pode ler c escrcver usando ciclos dc barramento 
comuns e os pinos RD (ReaD), WR (WRite), CS (Chip Sclect), c AO . Quando o software concluir a mampula- 
ęao da interrupęao e estivpr pronto para atender a seguinte, escrcve um código especial em um dos registradores, 
que faz com que o 8259A neguc INT, a menos que haja outra interrupęao pendente. Esses registradores tambćm 
podem ser escritos para colocar o 8259A em um de vdrios modos. mascarar um conjunlo de intcrrupęóes e habili- 
tar outras caracteristicas. 

Quando mais de oito dispositivos de E/S estivcrcm presentes, o 8259As pode funcionar em cascata. No easo 
mais extremo. todas as oito entradas podem ser eoncctadas as safdas dc mais oito 8259As, permitindo atć 64 dispo- 
' itivos dc E/S em uma redc dc interrupęao dc dois estdgios. 0 8259A tern aiguns pinos dedicados a essa operaęao 
cm cascata que omitimos por qucstao dc simplicidade. 

Embora nao tenhamos nem dc perto esgotado a questao do projeto dc barramento. o materia! quc apresenta- 
mos atć aqui deve ofcrccer fundamentu .suliciente para entender os aspectos essenciais do modo de funcionamento 
de um barramento e da interaęao entre CPUs e barramentos. Agora vamos passar do geral para o especffico e exa- 
minar aiguns exemplos dc CPUs reais c seus barramentos. 



3.5 Exemplo de chips de CPUs 

Nesta seęao vatnos examinar com algum detalhe os chips Pentium 4, UltraSPARC Ul e 8051 no nivel de 
hardware. 

3.5.1 O Pentium 4 

O Pentium 4 e urn dcseendenle direto da CPU 8088 usada no IBM PC original. O primcim Pentium 4 foi lan- 
ęado em novembro dc 2000 como uma CPU de 42 milhóes de transistores que funcionava em 1.5 GHz com urna 
largura dc linha de 0.18 micron. Largura da linha qucr dizer a largura dos fios entre transistores. bem como e uma 
medida do tamanho dos próprios transistores. Quanto menor a largura da linha. mais transistores podem cuber no 
chip. No fundo, a lei de Moore se rcfcre a capacidade dc os engenheiros de processo continuarctn a reduzir as lar- 
guras das linhas. Larguras menores tambćm permitem vc!ocidades de relógio mais altas. Como termo dc comparu- 
ęao. os lios de tabelo humano tkam na faixa de 20 a 100 mieni de diilmetro. sendo o tabelo loiro mais tino do que 
o preto. 

No decurso dos tres anos seguintes. a medida que ganhava experiencia no processo de manufatura, a Intel evo- 
luiu para 55 milhóes de transistores quc funcionuvam a velocidadcs de ate 3.2 GHz com larguras dc linha dc 0.09 
intcron. Embora esteja a anos-luz do 8088 dc 29 mil transistores, o Pentium 4 ć totalmcnte compauvel com o 8088 
e pode executar progrumas binarios 8088 sem modiftcaęóes iscm mencionar os programas para todos os proccssa- 
dorcs intermedianos). 


i 
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Do porno ile vista de software, o Peniium 4 e urna maquina completa dc 32 bits. Tem todas as mesmas carac- 
tcristicas ISA dc nfvc! dc usuano quc os chips 80386, 80486. Pentium, Pentium II, Pentium Pro c Pentium III, c 
tambem os mesmos registradores, as mesmas instruęóes c urna implementacjo completa no chip do padrao IEEE 
754 dc ponto nuluanle. Alera disso. tem algunras novas instruęóes deslinadas primariamente a aplicaęóes de multi- 
nudia. 

Contudo. da perspectiva de hardware, o Pentium 4 i. em parte, urna maquina de 64 bits, ja que pode transfe- 
rir dados de e para a memória cm unidades de 64 bits. Embora o programador nao possa obscrvar essas transferćn- 
cias de 64 bits, elas rcalmente tomam a maquina mais rapida do quc seria urna mtiquina pura dc 32 bits. 

Em sua parte interna, no m'vel da microarquitetura. o Pentium 4 e radicalmenlc di terenie de todos os seus antę 
cessores. Os imediatos o Pentium II. o Pentium Pro e o Pentium III — usaram, todos, a mesma mieroarquitctu- 
ra interna (denominada P6) e somente a vclocidade e alguns pequenos detalhes diferentes. Ao contnirio, o Pentium 
4 usa urna nova microarquiletura (denominada NetBurst), que e significalWamentc dilcrentc da P6. Tem um para- 
lelismo mais profundo. duas UI.As — cada urna luncionando a duas vc7.cs a l’rcq(iencia de relógio para permitir 
duas opcraęóes por ciclo — c suporta hiperthreading. 

Essa ultima caractcristica pmve dois conjuntos dc registradores c alguns outros recursos intemos quc permi- 
tem que o Pentium 4 passe de um programu para um outro com muita rapidez, como se o eomputador contives.se 
duas CPUs ffsicas. Examinaremos a mieroarquitctura no Capftulo 4. Entretanto, assim como seus antceessores, o 
Pentium 4 pode cxecutar vurias instruęóes ao mesmo tempo, o que o loma urna maquinu supcrcscalar. 

Alguns modelos do Pentium 4 tem caehe dc dois nfvcis e alguns dc trCs nfvcis. Todos os modelos tem no chip 
urna caehe SRAM de 8 KB de mvel 1 (LI). Diferente da eaehc LI do Pentium III. que apenas armazena bytes bru- 
tos vindos da memória, o Pentium 4 di um passo a frente. Quando as instruęóes sao buscadas na memória, elas 
sao convertidas cm microoperaęócs para cxecuędo no mklco RISC do Pentium 4. A caehe LI do Pentium 4 arma¬ 
zena ate 12 mil tniomoperuęócs decoditicadas. eliminando a necessidadc dc dccodilka-las repetidas vczcs. A 
caehe de segundo nivel armazena atć 256 KB de memória nos modelos mais antigos c ate I MB dc bytes nos mais 
novos. Nada ć decodifieado: bytes puros da memória sao armazenados na caehe L2. Ela pode conter urna mistura 
de códigos e dados. O Pentium 4 Extreme Edition tambem tem urna caehe n(vel 3 de 2 MB para clevar ainda mais 
o desempenho. 

Visto que todos os chips Pentium 4 tćm no tnfnimo dois nfveis de cache, surge um problemu em um sistema 
multiprocessador quando urna CPU modificou a palavra em sua cache. Se urna outra CPU tentar ler aquela palavra 
da memória. obterd um valor ultrapassado, ja quc palavras de cache modificadas nao sao escritas de vo!ta na memó¬ 
ria imediaiainentc. Para manter a consistencia da memória. cada CPU em um sistema microprocessador escuta 
tsnaops) o barramento de memória em busca de refereneias de palavras que tcnhnm em cachc. Quando vć urna des- 
sas refereneias. ela se apressu em fomecer os dados rcquisitados antes que a memória tenha chancc dc faze-lo. 
Estudaremos escuta (snooping) no Capitulo 8. 

Nos sistemas Pentium 4 sao usados dois burramentos primarios extcmos, ambos sfneronos. O barramento dc 
memória ć usado para ucessur a (S)DRAM principul; o barramento PCI ć usado para fular com disposilivos dc E/S. 
As vcz.es um barramento herdado — isto e. antigo — e ligado ao barramento PCI para permitir a ligaędo de dis- 
posilivos perifóricos antigos. 

Utną difercnęn substoncial entre o Pentium 4 e todo os seus antceessores ó o empacotomcnto. Um problemu pre- 
sente em todos os chips modemos e a energia quc consomem e o caior que produzem. O Pentium 4 consomc entre 
63 e 82 wutLs dependendo da lreqii£nciu. Por conseqtl£ncia. a Intel estd sempre buscando novas manciras de geren- 
ciar o calor produzido pelos chips de CPUs. O Pentium 4 vcm em um pacotc dc 35 mm de lado e contćm 478 pinos 
na parte inferior, 85 dos quais siło para energia e 180 siło uterrados para reduzir ruido. Os pinos sao organizados como 
um quadrado de 26 X 2fl sem nada na parte do meio (14 x 14). Tambem fallam dois pinos cm um dos cantos para 
impedir a incorrela inserędo do chip cm seu soquctc. A disposiędo (Tsiea dos pinos e mostrada na Figura 3.41. 

O chip ostri cquiptulo com um suportc dc montagem para um dissipudor dc calor que distribui o calor e um 
ventilador quc resfria o chip. Para ter urna idei a do problemu, ligue urna Idmpada de 60 watts, dcixe quc da csqucn- 
te e entao ponha suas mdos ao redor dela u nas nao a ioque). Lina quonudadc de calor equivalentc a essa deve ser 
dissipada continuantentc. Por eonsequencia. quando acabar a utilidade dc um Pentium 4 como CPU, sempre pode- 
rcmos uliiiza-lo como fogureiro dc acampamento. 


Figura 3.41 

Disposicao lisica dos pinos 
no Penuum 4. 








Dc acordo com as leis da fifsica. qualquer coisa que emita muito caJor dcvc absorvcr muita energia. Nao ć inte- 
ressante usar rauila energia cm um computador portdtil com carga de bateria liraitada porque a bateria sc esgota 
rapidamente. Para nesolvcr essa questao a Intel oferece um meio de pór a CPU para dormir quando ela cstiver ocio¬ 
sa e de fazć-la cair cm sono profundo quando e provdvcl que tkani adormecida durante algum tempo. Ha quatro 
estados oferccidos, que vdo de totałmente ativa a sono profundo. Nos estados intermedidrios sao habilitadas algu- 
mas funcionalidades (tal como cscuta de cache c manipulaędo de intemipędo), mus outras funęócs sao desutivadas. 
Quando cm estado de sono profundo. a cache c os valorcs dc registradores sao presemdos, mas o relógio c todas 
as outras unidades intemas sao desligadas. Ainda nao sabemos sc um Pentium 4 pode sonhar quando esta cm sono 
profundo. 

Pinagem lógica do Pentium 4 

Os 478 pinos do Pentium 4 sao usados para 198 sinais, 85 conexóes com energia elćtrica (cm diversas volla- 
gens diferentes), 180 terras e 15 avulsos para uso futuro. Alguns dos sinais lógicos usam dois ou mais pinos (tal 
como o endereęo de memória requisitado). de modo quc ha somente 56 sinais diferentes. Uma pinagem lógica um 
pouco simplificada e dada na Figura 3.42. No lado esquerdo da figura hti etneo grupos principais dc sinais dc bar- 
ramento dc memória: no lado direito ha diversos sinais variados. Os nomes cm letras maitisculas sao os nonies dc 
sinais dados pela Intel. Os escritos cm letras maitisculas c miniiscuias sdo nomes eoletivos para vdrios sinais rela- 
cionados. 

A Intel usa uma convenęao de nomenclatura que e importantc entender. Como hoje cm dia todos os chips sao 
projeiados usando computadores. ć prcciso poder representar nomes de sinais como texto ASCII. Usar barras supe- 
riores p ara ind icar sinais que sao ativados baixos ć muito diffcil, portanto a Intel preferc o simbolo # após o nome. 
Assim. BPRI 6 expresso como BPRI#. Como podemos ver na figura, a maioria dos sinais Pentium 4 sao ativados 
baixos. 

Vamos examinar os sinais. comeęundo pelos de barramenlo. O primeiro grupo de sinais <5 usado para requisi- 
».ar o barramenlo, isto ć, fuzer arbitragem dc barramento. BBO# e usado para requisitar o barramenlo. BPRI# permi- 
tc que um dispositivo faęa uma rcquisięao de alta prioridadc quc tern precedencia sobrc um sinal normal. LOCK# 
permite que uma CPU trave o barramento pura impedir que outros dispositivos o obtenham alć cla concluir o que 
esta fazendo. 

Uma vc7. adquirida a propriedadc do barramento, uma CPU ou outro mestre de transferencia dc dados pode 
fazer uma rcquisięao de barramento usando o próximo grupo de sinais. Endereęos tćm 36 bits, mas os 3 bits de 
ordcm baixa dcvcm ser sempre 0 e, portanto, nao tfim pinos ativados, de modo que A# tern somente 33 pinos. Todas 
as transferóncias tern 8 bytes. alinhadas em uma frontcira de 8 bytes. Com 36 bits dc endereęo a mas i ma memória 
cndcreędvcl ć 2 J6 , quc equivale a 64 GB. 

Quando um endereęo e colocado no barramento. o sinal ADS# ć ativado para informar ao alvo (por exemplo, 
a memória) que us linhas dc endereęo sao vdlidas. O tipo dc ciclo dc barramento (por cxcmplo. ler uma palavra ou 
escrcvcr um bloco) vai nas linhas REO#. As duas linhas de paridade protegem A# c REO#. 


Figura 3.42 

Pinagem lógica do Pennuin 
4. Nomes em letras 
maitisculas sdo os nomes 
oficiais usados pela Intel 
para sinais individuais. 
Nomes em maiusculas e 
miniiscuias sao grupos de 
sinais reladonados ou 
descncóes de sinais. 
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As cinco linhas ile erros sao usadas para informar erras de ponto llutuame, erros intemos e erros dc verifica- 
ędo de maquina — isto e. hardware — e alguns outros erros. 

O grupo Response contćm sinais usados pelo cscravo para devolver informuęócs ao mesire. RS# contćm o 
okiigo de estado. TRDY# indica que o escravo (o alvo) esta pronto para aceitar dados do mestre. Esses sinais tum¬ 
bom tćm sua paridadc vcrificada. BNR# e usado para solicitar urn estado dc espcra quando o alvo endereęado nao 
pode rcspondcr a tempo. 

O ultimo grupo de barramento e para a transfcrćncia de dados propriamente dita. D# e usado para colocar 8 
bytcs dc dados no barramento. Quando sao colocados ali. ORDY# e ativado para anuneiar quc eles cstao presentes. 
DBSY# e usado para informar ao mundo quc o barramento esta ocupado no momento cm questao. Aqui tambem e 
usada a paridade para verificar dados. Os sinais divcrsos lidam com amostragem de valorcs c coisas semelhantes. 


RESET# ć usado para rcinieiar a CPU no evcnto de uma ealamidade ou quando o usuario apertar a tccla ‘resel’ 
no paincl do PC. 

O Pentium 4 pode ser conligurado para usar intcrrupęócs do mesmo modo quc o 8088 {para finalidadc dc com- 
patibilidudc) ou tambem pode usar um novo sistema dc intcrrupęao quc utili/a um dispositivo denominado APIC 

l.\dvanccd Progrummuhlc lntcrrupt Controller — controiador de interrupęao p rug rama vel avanęado|. 

O Pentium 4 pode funaonar cm quaisqucr dc varias lensóes predelinidus, mas tem de saber qual delas. Os 
sinais de gercnciamcnto dc energia sao usados pura seleęao auiomalica dc tensao da fonie de energia, para informar 
ii CPU quc a energia estd cstavel c outros assuntos relucionudos com u energia. O gerenciamento dos varios esta- 
dos dc sono tambem ć fcito aqui. uma vez. que o sono acontccc por ra/.Oes de gerenciamento de energia. 

A despeito de scu sofisticado gerenciamento de energia, o Pentium 4 pode tiear muito quente. O grupo de 
Gercnciumento dc Calor trata do gerenciamento tćrmico, permilindo que u CPU indiquc a scu ambiente quc estd 
correndo nsco de superaquecimento. Um dos pi nos ć ativado pcla CPU caso sua temperatura atinja 130 °C (266 “F). 
Se uma CPU alguma vez se aquecer a essa temperatura. provavclmcnte estard sonhando com sua aposentadoriu c 
posterior transformaęao cm fogareiro de acampomcnto. 

O grupo Frcqiićncia de relógio tem a ver com a dctcrminaęao da freqiićncia do barramento de sistema. O grupo 
Diagnósticos contćm sinais pora testar e depurar sistemas dc acordo com o padrao dc teste IEEE 1149.1 JTAG. O 
grupo Iniciali/aęao trata dc inicializar (dar partida ao) o sistema. 


Por^tn, o grupo Diversos e uma coleęao de sinais variados que inclui um que indica se o soquete da CPU estd 
ocupado. um relacionado a emulaęao de 8088 e outros sinais quc tćm vdrias linalidades especiais. 


Paralelismo no barramento de memória do Pentium 4 

CPUs modcmas como o Pentium 4 sao muito mais rdpidas do que as modemus memórias DRAM. Para cvitar 
quc a CPU pereęa por falla dc dados. ć cssencial obter o mdximo poss/vel dc rendimento da memória. Por essa 
raziło, o barramento de memória do Pentium 4 tem alto grau de paralelismo. com ale oito transaęóes dc barramen¬ 
to ocorrendo ao mesmo tempo. Vimos o conceito dc paralelismo no Capftulo 2 no contexto de uma CPU com para- 
lclismo (vcja a Figura 2.4). mas memórias lambćm podem ter paralelismo. 

Para permitir o paralelismo. as requisięóes d memória do Pentium 4, denominudas transaęiios, tćm seis 
estdgios: 


1. A fasę dc arbitragem de barramento. 

2 . A fasę de requisięao. 

3. A fasę de noliticaęao de eiro. 

4. A fasc de escuta. 
s. A fasę de resposta. 
s. A fasę de dados. 


Nem todas as fases sao necessarias cm todas as transaęóes. A fasę de arbitragem de barramento determina qual 
dos potcnciais mestres dc iransferencia de dados entra cm seguida. A fasę de requisięao permite que o cndcrcęo seja 
colocado no barramento c que a rcquisięao seja feiui. A fasę dc notiiicaęao de erm permite que o escravo anuncte 
que o cndcrcęo tinha um cito de paridade ou que alguma outra coisa estd erradu. A fasę de cscuta permite que urna 
CPU escute uma outra. o quc só e ncccssario cm um sistema muitiproccssador. Na fasę dc resposta o mestre fica 
sabendo se estd prcstcs a obter os dados quc quer. Por fim. a fasę de dados permite que os dados sejam cnviados a 
CPU quc os rcquisitou. 

O segredo do barramento de memória com paralelismo do Pentium 4 e que cada fasę usa sinais de barramen¬ 
to diferentes. de modo que cada uma e complctamcnte independente da outra. Os seis grupos de sinais necessarios 
siio os mostrados na Figura 3.42 a csquerda. Por exemplo. uma CPU pode tentar obter o barramento usando os sinais 
dc arbitragem. Uma vez adquirido o direito dc entrar. ela libera essas linhas de barramento e comeca a usar as li- 
nhas do grupo Requisięao. Enquanto isso. a outra CPU ou algum ilispositivo de E/S pode entrar na fasę dc arbitra- 
gem de barramento e assim por dianie. A Figura 3.43 mostra como v;irias transaęóes de bamunento podem estar 
ativas ao mesmo tempo. 

Na Figura 3.43 a fasę de arbitragem de barramento nao e mostrada porque nem sempre ela e neeessdria. Por 
exemp!o. se o proprietario do barramento no momento cm questao (frequeniemcnic a CPU) quiser executar uma 





< 



outra transaęao. nao e preciso readquirir o barramento. Basta solicitar o barramento mais uma vcz após passar a pro- 
priedade do barramento para outro dispositivo rcquisitantc. As transaęóes I e 2 sao dirctas: cinco fases cm cinco 
ciclos de barramento. A transaęao 3 introduz uma fasę dc dados mais longa, por exempio, por ser uma transferen- 
cia dc bioco ou porquc a memória endereęada inseriu urn estado de espera. 

Por conscqiiencia. a transaęao 4 nao pode iniciar sua fasę dados quando gostaria. Ela observu quc o sinal 
DBSY# ainda esta ativado e apenas espera afe que ele seja negado. Na transaęao 5 vemos quc a fasę de resposta tam- 
bem pode levar varios ciclos de barramento e por isso atrasar a transaęao 6. Por firn. na transaędo 7, observamos 
quc assim que aparcce urn vazio no paralelismo, cle ali permanccc se novas transaęóes conseculivas eontinuarem a 
ser iniciadas. Contudo. na pnilica. 6 impruvdvel que a CPU tente iniciar uma nova transaęao em todo e qualquer 
ciclo dc barramento. portanto os vazios nao duram muito. 

3.5.2 O UltraSPARC III 

Como nosso segundo esemplo de um chip de CPU, examinaremos agora a familia Sun UltraSPARC. Essa 
famflia ć a linha da Sun dc CPUs SPARC de 64 bits. Essas CPUs estao totalmcnte de acordo com a arąuitctura 
SPARC Versao 9, quc tumbęin e para CPUs de 64 bits. Elas sao usadas cm estaęóes dc trabalho c scrvidorcs Sun, 
bem como em vdrias outras aplicaęóes. Essa famflia inclui as UltraSPARC I, UltraSPARC H e UltraSPARC III. que 
sao muito semelhantes em termos de arquitctura — as principais diferunęas sao a data dc lanęamcnto, a velocidadc 
de relógio e algumus instruęóes exlras introduzidas em cada modclo. Para ficarmos cm terreno concrcto. vamos nos 
referir ii UltraSPARC III logo adiante, mas grandę parte da discussao da arquitctura — isto ć, independentemente 
de tecnologia — tambćm vale para as outras UltraSPARCs. 

A UltraSPARC 111 i uma maquina RISC tradicional e e totalmente compatfvel com o código binario da arqui- 
telura SPARC V8 de 32 bits. Ela pode executar pro gram as binarios SPARC V8 de 32 bits sem modifkaęao porque 
a arquitctura SPARC V9 e compatfvcl com a arquitetura SPARC V8. O unico ponto em quc a UltraSPARC III se 
dcsvia da arquitetura SPARC V9 ć no acrescimo do conjunto de instruęao VIS 2.0 pmjetado para aplicaęóes grafi- 
cas cm 3D. decodificaęao MPEG em tempo real, compressao de dados, proccssainento de sinal, cxccuęao de pro- 
gramas em Java e trabalho em rcdc. 

Embora a UltraSPARC (II tam bem seja utilizada em estaęóes dc trabalho. na realidade ela foi projetada para 
ser utilizada no negócin principal ila Sun, grandes servidores multiproccssados de memória compartilhada usados 
nu Internet e em intranets corporalivas. Especillcameiue. grandę parte do *adcsivo' necessario para construir um 
multiprocessador esta inclufda em cada chip UltraSPARC III. o que facilita a eone.sao conjunta de grandc quanti- 
dade dclcs. 

A primeiru UltraSPARC 111 foi lanęada em 2000 a 600 MHz usando linhas de aluminio de 0,18 micron. Os 
chips contćm 29 milhócs de transistores. Como o volumc da Sun e muito pequeno para justificar a construęao de 
uma fiibrica dc chips de ultima gcraęao, a empresa prcfcrc sc concentrar em projeto dc chips c software c contraiar 
a fabncaęao dc CPUs com terceiros. No caso da UltraSPARC III os chips foram fabrieados pela Texas Instruments. 
Em 2001. a TI melhorou sua tecnologia e comeęou a fabricar chips dc 0,15 micron dc 900 MHz usando tios de 
cobre em vcz dc aluminio. Em 2002. a largura da linha caiu para 0,13 micron e o relógio foi clevado ale 1,2 GHz. 
Esscs chips rcqucrcm 50 watts de potćncia e, portanto. tem praticamente os mesmos problcmas de dissipaęao de 
calor quc o Pentium 4. 

E dificil comparar um chip CISC (como o Pentium 4) e um chip RISC (como o UltraSPARC 111) apenas com 
base na ve!ocidade dc relógio. Por exemplo. a UltraSPARC III pode iniciar continuamente quatro instruęóes por 
ciclo dc relógio. o que Ihe conferc qua.se a mesma taxa dc cxccuęao que uma CPU que inicia apenas uma instruęao 
funcionando a 4.8 GHz. 
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Figara 3.44 

Chip de CPU UltraSPARC Ul. 



A UltraSPARC tambem tem scis paralclismos intemos, entre eles dois dc 14 cstagios para operaęóes com intei- 
ros. dois para operaęóes com ponto llutuante. um para operaęóes de carga/armazenagem e um para desvios. Ainda 
adota umu abordagem diferente em relaęao ao caching, barramentos mais largos c outros fatores que melhoram o 
desempenho. O Pentium 4 tambćm tem suas foręas particulares. Aqui. a tjuestao & que a mera eomparaęao de dois 
chips muito diferentes tendo como base suas velooidades de rclógio relativas diz muito pouco sobre o desempenho 
rclativo om alguma tarefa espectTica. 

A UltraSPARC III vem em um arranjo dc grade geodćsica (Land Grid Array) de 1.368 pinos, como mostra a 
Figura 3.44. Esse paeote consistc em uma inatriz quadrada de 37 X 37 = 1.369 pinos na parte inferior do chip, fal- 
tando o pino do canto inferior csqucrdo. O soquctc se adapta com esatidao ao chip para evitar que ele seja inserido 
incorretamente no suporte. 

A UltraSPARC III tem duas caches LI intemas principais: 32 KB para instruęóes e 64 KB para dados. Hd tam- 
bem uma cache de busca antecipada de 2 KB e uma eaehc de escrita de 2 KB usada para colctar escritas para a eache 
de m'vel 2, dc modo que elas possam ser executadas em grandes rajadas para melhorar a utilizaęao da largura dc 
banda. Como o Pentium 4, ela tambem usa uma cache de nfvel 2 fora do chip mas, diferente do Pentium 4, a 
UltraSPARC III nao e cmpacotada no chip com a cache de nfvel 2. O controlador de cache e lógica para loealizar 
blocos esta no chip, mas a memória SRAM propriamente dita nao estd. Em vez disso, os projetistas de sistema tem 
liberdade para escolher no mercado quaisquer chips de cache que quiserem para a cache de mvel 2. 

A dccisao de integrar a cache dc mvel 2 no Pentium 4 e de separa-la na UltraSPARC III deve-se em parte a 
qucstóes tecnicas e em parte aos diferentes modelos de negócios adotados pela Intel e pela Sun. Do ponto de vista 
tócnico, uma cache extema e maior e mais flexivel (as caches UltraSPARC ni L2 podem variar de 1 MB a 8 MB; 
as caches L2 do Pentium 4 sao fixas em 512 KB). Contudo, ela pode ser mais lenta devido a sua maior distancia 
em relaęao i) CPU. Ela tambem requer mais sinais visiveis para endereęar a cache. Em particular, a concxao entre 
a UltraSPARC III e suas caches L2 tem 256 bits de largura, o que permite que todo um bloco de cache de 32 bytes 
seja transferido cm um ciclo. 

Do ponto de vista do negócio, a Intel e uma fabricantc de semicondutores e tem a capacidade dc projetar e pro- 
duzir seu próprio chip de cache n»vel 2 e conecta-io a CPU por meio de uma interface proprietaria de alto desem¬ 
penho. A Sun, ao conlrdrio, fabrica computadores, e nao chips. Ela projeta ulguns dc scus próprios chips (como os 
UltraSPARCs), mas terceiriza a produęao com fabricantes de semicondutores. Quando pode. a Sun prefere usar 
chips dispontveis no comercio quc foram intensamente apcrfcięoados pelo mercado competitivo. Hd indmeros fabri- 
canles de chips que produzem as SRAMs usadas para caches de n(vel 2. portanto nao ha nenhuma ncccssidade espe- 
cial dc u Sun projetar seus próprios chips. Essa dccisao implica a indcpendćncia da cache de n(vel 2 em relaęao ao 
chip de CPU. 

A UltraSPARC in usa um barramento de endereęo dc 43 bits de largura. o que permite que ele tenha atć 8 TB 
de memória prineipul. O barramento de dados tem 128 bits de largura. o que permite a iransferencia de 16 bytes por 
vez entre a CPU e a memória. A velocidadc do barramento e 150 MHz, o que da uma largura de banda dc memó¬ 
ria de 2,4 GB por segundo. muito mais rapida do que os 528 MB por segundo do PCL 

Paraconectur (varias) CPUs UltraSPARC para comunicaęao com (varias) memórias. a Sun dcsenvolveu a UPA 
(Ultra Port Architccture — arąuitetura ultraporta). A UPA pode ser implemcntadacomo um barramento, um 
comutadur ou uma combinaęao dos dois. Modelos diferentes de estaęóes de trabalho e servidores usam implcmcn- 
taęóes diferentes de UPA. A implementaęao de UPA nao importa para a CPU porque a interface com ela e dełint- 
da com precisiło e e essa interface que o chip de CPU deve suportar — e suporta. 

Na Figura 3.45 vemos o nticleo de um sistema UltraSPARC Ul, mostrando o chip de CPU. a interface UPA e 
a cache de mvcl 2 (duas SRAMS existentes no comercio). A figura tambem contein um chip UDB II (UltraSPARC 
Data BulTer II), cuja ftinęao serd discutida mais adiante. Quando precisa de uma palavra de memória. a CPU a pro- 
cura primeiro em uma de suas caches nivel I (intemas). Se uchar a palavra. prossegue na execuęao a loda vclocida- 
de. Se nao achar a palavra na cache de m'vel I. ela tenta a cache de ntvel 2. 

Vamos discutir caching dctalhadamentc no Capftulo 4, mas e bom dizer algumas palavras sobre ela aqui. Toda 
a memória principal e dividida em linhas (blocos) de cache de 64 bytes. As 256 linhas de instruęao mais usadas e 
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Figura 3.45 

Pnncipais earacteristicas do 
nucleo de um sistema 
UltraSPARC III._ 



as 256 linhus dc dados mais usadas estao na cache de m'vel 1. Linhas de cache quc sao muito usadas mas nao cahem 
nu cachc dc m'vel I sao mantidus nu cache de nlvel 2. Essa cache cnnlćm linhus dc duduś e linhus de instruęao rnis- 
turadas alcutoriamcntc. Elas sao armazcnadas no retangulo rotulado 'Cachc dc dados dc mvel 2’. O sistema tein de 
monitorur quais linhas cstiio na cachc de nfvcl 2. Essa informaęao e mantida cm urna segunda SRAM. denominuda 
'Tags de cachc dc nfvci 2’. 

Quandn ha urna ausćncia na cache de nivel 1, a CPU envia o idcntiilcador da linha quc csui procurando (ende¬ 
reęo de tag) para a cache de nfvcl 2. A resposla (dados dc lag) informa u CPU se a linha estd ou nao na cache dc 
nivel 2 c, se estivcr. informa tambćm o estado cm que a linha esta. Se a linha cstiver na cache. u CPU vai pcga-la. 
As transfcrcncias de dados tćm 16 bytes de largura, portanto sao neccssarios quutro ciclos para buscar a linha intei- 
ra na cache dc nfvcl I. 

Sc a linha dc cachc ndo estiver na cachc de mvel 2. ela deve ser buscada na memória principal por meio da 
interface UPA. A UPA UltraSPARC III ć implementada com um controlador ccntralizado. O endcrcęo e os sinais 
dc controic da CPU (de todas as CPUs, sc houver mais de uma) v3o para Id. Para acessar a memória, cm primeiro 
lugar a CPU devc usar os pinos da arbitragem dc barramento para obter permissau dc entrar em seguida. Uma vez 
conccdida a permissao, a CPU envia o endereęo para os pinos dc endereęo, especifica o lipo de requisięao e atua o 
pino de endcrcęo valido. Esses pinos sao bidirecionais. jd que em um multipmcessador UltraSPARC III outras 
CPUs precisam accssar caches remotas para manier todas as caches cocrcntcs. 

O endcrcęo e o lipo de ciclo dc barramento sao entregues em dois ciclos nos pinos dc endereęo, sendo que a 
linha sai no primeiro ciclo e a coluna no segundo ciclo, como vimos na Figura 3.30. 

Enqunnto espera os rcsultados. a CPU pode perfcilamcntc continuur exccutando outro trabalho. Por excmplo. 
uma ausćncia na cachc durante a busca antecipada dc uma instruęiio nao inibc u execuęao de uma ou mais instru- 
ęóes jd buscadas; cada uma das quuis pode se referir a dados quc nao esldu cm quaisqucr das caches. Assim, vdrias 
transaęóes com a UPA podcm ostar ativas de uma vez só. A UPA pode manipular duas corrcntes de transaęao inde- 
pcndcnlcs, normalmcntc leituras e escritas. cada uma com vdrias transaęóes pendentes. Cabc ao controlador ccntra¬ 
lizado monitorar ludo isso e fazer rcquisięócs dc memória propriumen(e ditas na ordem mais eficicnte. 

Quando os dados (inalmentc chcgam da memória, podcm vir em 8 bytes por vcz e com um código dc corre- 
ęao dc erro de 16 bits para maior contlabilidade. Uma transaęao pode solicitar um bloco dc cache inteiro. uma quad- 
word 18 bytes) ou ale mesmo um mimeni menor dc bytes. Todos os dados que entram vao para o UDB. que os arma- 
/ena cm um butTcr. 

A llnalidadc do UDB e desvincular ainda mais a CPU do sistema de memóna. de modo quc possani trabalhar 
cm assincronia. Por escmplo. sc a CPU tiver de escrcvcr uma palavra ou linha dc cachc na memória. em vez de 
esperar para acessar a UPA. clu pode cscrever os dados no UDB imedialamcntc e deixar que cle os passe para a 
memória mais tarde. O UDB tambem gera e veril!ca o código dc correędo de erro. Só para Ikar registrado. a des- 
crięao que lizemos da UltraSPARC 111. bem como a do Pentium 4 antes dc la. foram muito simplilicadas. mas a 
cssćncia de sua operaędo foi descrita. 


3.5.3 O 8051 

Tanio o Pentium 4 quanlo a UltraSPARC Ul sao cxemplos de CPUs de allo desempenho projetadas para eons- 
truir PCs e scrvidores dc estrema rapidcz. Quando pensum em computadorcs, e esse o lipo de sistema quc muitas 
pessoas tendem a focalizar. Entrctanto, existe todo um outro mundo de computadorcs que na verdadc ć muito maior: 
sistemas embutidos. Nestn seęao vamos examinar brcvcmcnte esse outro mundo. 

Provuvelmente nao sera um grandę exagcro dizer que todo cquipamento cletrico quc custc mais dc 100 dóla- 
res tern um computador dentro dele. Hojc em dia, e certo que televisorcs. telcfoncs celulares. agendas eletrónicas. 
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Figura 3.46 

Pinagem fisica do 8051. 



fomos de microondas, camcorders, VCRs. impressoras a laser, alarmes antifurto, aparelhos de surdez, jogos eletró- 
nicos c outros incontavcis dispositivos para raencionar aqui sao todos eonlrolados por computador. Os computado¬ 
res quc estao dentro desses aparelhos tendem a ser otimizados para baixo preęo e nao para altu desempenho. o que 
provoca compromissos diferentes dos feitos para CPUs de tecnologia avanęada que estudamos ate aqui. 

Como mcncionamos no Capftulo 1. o 8051 provnvclmentc e o microcontrolador inais popular em uso hojc. cm 
grandę parte por causa de seu custo muito baixo. Como veremos em brcve, ele tambem ć urn chip simplcs. portan- 
to fazer inlerfacc com ele e algo fdcil e barato. Agora vamos cxaminar o chip 8051. euja pinagem ffsica 6 mostra- 
da na Figura 3.46. 

Como podemos ver na Figura. 3.46, o 8051 nonnalmente vem em um pacote-padrao de 40 pinos. embora haja 
outros pacotes no mercado para uso especial. Ele lem 16 linhas de endereęo. portanto pode endereęar 64 KB de 
memória. O barramento de dados lem 8 bits de largura, de modo que as transier&ncias de dados entre a CPU e a 
memória sao feitas um byte por vez. em eomparaęao com os 8 bytes por vez no Pentium 4 e os 16 bytes por vez na 
UltraSPARC 111. O chip tern urna variedade de linhas de controle deseritas a seguir. mas o maior contraste com o 
Pentium 4 e o UltraSPARC. que sao CPUs puras. ć a presenęa de 32 linhas de E/S, organizadas em qualro grupos 
de 8 bits cada. 

Cada urna dessas linhas de E/S pode ser ligada a urna tccla, comutador, LED (Light Emitting Diodę — diodo 
emissor de luz) ou outro dispositivo cxistente no mundo real para prover entrada para o 8051 ou saida do 8051. Por 
exemplo, em um radio-relógio, cada um dos botoes e comutadores pode ser ligado a um linha de E/S diferente. 
sendo que outras linhas dc E/S controlam o visor. Dessc modo, a maioria das funęoes do aparclho, sc nao todas, 
poderia ser controlada por software, eliminando a neceąsidadc da cara lógica discreta. 

A pinagem lógica do 8051 e mostrada na Figura 3.47.0 8051 vem com 4 KB de ROM interna (8 KB no 8052). 
Sc isso for insufieiente para a aplicaęao, ate 64 KB de memória extcma podem ser conectados ao 8051 por um bar- 
ramento. Os sete primeiros sinais do lado esquerdo da Figura 3.47 sao usados para fazer a intcrface com memórias 
extemas. se estivercm presentes. O primciro sinal, A, centem 16 linhas de endereęo para endereęar o byte de memó- 
ria cxtema a ser lido ou escrito. As oito linhas D sao usadas para transporte de dados. As oito linhas de endereęo dc 
baixa ordem sao multiplexadas nos mesmos pinos que as linhas dc dados, de mancira a reduzir o numero dc pinos. 
Em urna transaędo dc barramento, esses pinos de saida entregam o endereęo no primciro ciclo dc relógio e carre- 
gum os dados cm ciclos subseqiientcs. 

(juan do ć usada urna memória extema, o 8051 tern de indicar se esta lendo ou cscrevendo na memória ativan- 
do RD ou WR . rcspectivamente. O sina! ALE (Address Latch Enable — Habilitaęao de RegisUo de Endereęo) e 
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usado quando uma memória cxtema csta prescnte. A CPU asscgura esse sinal para indicar que o cndercęo e vdIłdo. 
Memórias extemas normalmente o usain para amosirar xs linhas de cndercęo, uma vez que elas serao liberadas logo 
após. de modo que os pinos podem ser reutilizados para os dados. 

Os sinais PSEN e EA# tambćm estao relaeionados com a memória extema. O sinal PSEN (Program Storę 
ENable) e auvado para indicar quc o St)51 quer ler da mcmória de programa. Normalmente cle estaria conectado 
uo sinaJ OE da memória, como ilustrado na Figura 3.28. 

O sinal EA (External Access - acesso cxtcmol costuma ser ligado cm alto ou baixo, portanlo sempre tern o 
mesnio valor. Se for ligado alto, a memória interna de 4 KB (8 KB no 8052) e usada para cndercęos dentro da faixa 
c a mcmória cxlcma e usada para cndercęos acima da taixa de 4 KB (8 KB no 8052). Sc cstivcr ligado baixo, a 
memória extcma ć usada para todos os endereęos c. na vcrdadc. u memória no chip e dcsviada. No 8031 c no 8032, 
EA dcvc ser ligado baixo porque nao ha mcmória no chip. 

As duas linhas do temporizador permitem que temporizadores cxtcmos sejam enlradas para a CPU. As duas 
linhas de intenupęao permitem que dois dispositivos extemos difercnles interrompam a CPU. As linhas TXD e RXD 
sao para permitir E/S serial para um terminal ou modem. Por Hm, a iinhn RST permite quc o usuario ou dispositi- 
vo dc hardware extcmo reajustc o 8051. Essa iinha normalmente ć ativada quando alguma coisa deu errado e o sis- 
tema tern dc ser reinicializado. 

Atć aqui, o 8051 e semelhante a maioria das CPUs de 8 bits. cxcclo pela presenęa de linhas scriais de E/S. O 
que dcstaca o 8051 e a presenęa de 32 linhas de E/S organizadas como quatro portas e mostradas no lado direito da 
Figura 3.47. Cada uma dessas linhas ć bidirccional c pode ser lida ou cscrita sob controle do programu. Esse ć o 
modo primario dc interaęiio do 8051 com o mundo cxtcmo c quc o tomu tao valioso: um unico chip basta para as 
liinęóes dc CPU, memória e E/S. 

3.6 Exemplos de barramentos 

Barramentos sao a cola que mantem a integridade dos sistemas de computadores. Nesta seęao cxaminaremos 
minuciosamcnte alguns barramentos muito conhecidos: o barramento ISA. o barramento PCI e o barramento USB 
(Universal Serial Bus — barramento serial univcrsal). O barramento ISA ć uma ligeira expansao do barramento 
IBM PC original. Por razóes de cumpatibilidade, ele ainda cstava presente em todos os PCs com chips Intel atć 
alguns unos atnLs, quando a Intel c a Microsoft concordaram em ciimina-lo. Todavia, essas maquinas invariavelmen- 
tc tambćm tern um segundo barramento mais nipido: o barramento PCI. Esse barramento ć mais largo do que o bar¬ 
ramento ISA c funciona a uma loxa de rełógio mais alta. Por conseq(l£ncia. pode transportar mais dados por segun¬ 
do do que o barramento ISA. Ele ć o burro dc cargu da maioria dos PCs existcntcs hoje, embora jd haja um sucessor 
em vista. 

O Universal Serial Bus ć um barramento de E/S cada vcz mais popular para perifćricos de baixa vclocidade, 
como mouses e teclodos. Uma segunda vcrsao do barramento USB funciona a velocidades muito mais elevadas. Nas 
scęóes seguintes vamos cxaminar cada um desses barramentos por vcz para ver como funcionam. 


I 3.6.1 O barramento ISA 

• O barramento IBM PC era o padrao de facto dos sistemas que usavam o 8088 porque praticamcnle todos os 
fabricantes dc elones do PC o copiaram para permitir que as muitas placas de E/S existcntes fabricadas por tercei- 

• ros fossem usadas com seus sistemas. Ele tinha 62 linhas de sinais, incluindo 20 para cndercęo de mcmória. 8 para 

. dados e uma Iinha dc cada para ativar leitura de mcmória, cscrita na memória. leitura dc E/S c cscrita dc E/S. Havia 

tambćm sinais para requisitar e conceder intcrrupęóes e usar DMA. e isso era praticamcnte tudo. Era um burramen- 
■ to muito simplcs'. 

. F.m termos ffsicos, o barramento era gravado na placa-mile do PC com ccrca dc mcia duzia dc concctorcs espa- 

ęados de 2 cm nos quais podium ser inseridus placas. Cada płaca iinha um rcbordo compatfvcl com o conector. Esse 
I rebordo unita 31 faixas banhadas a ouro dc cada lado. quc fa/iam contato eletrico com o conector. 

Ouando a IBM lanęou o PC/AT atm a CPU 80286, ficou com um grandę pntblcma nas miios. Sc cla tivcsse 
partido do zero e projetado um barramento de 16 bits inlciramentc novo. muitos clicntcs potcnciais teriam hesitado 
ł cm compni-lo porquc nenhuma das numerosas placas dc cncaixc para o PC fabricadas c vcndidas por tcrcciros teria 

luncionado na nova maquina. Por outro lado, insistir no’ barramento PC c suas 20 linhas de cndercęo c 8 linhas de 
dados seria dcixar de uproveitar a capucidade do 80286 dc accssar 16 MB de memória c transferir palavras dc 16 bits. 
| A soluęao escolhida foi ampliar o barramento PC. As placas dc encaixc do PC tćm um conector de burda com 

62 contalos que nao ocupa todo o comprimento da horda. A soluęao PO AT foi acrcsccmar um segundo conector 
dc horda na parte interior da płaca, adjacenlc ao principal, c projetar o circuito AT para irabulhur com os dois lipos 
| de płaca. A ideia geral osia ilustrada na Figura 3.48. 

O segundo conector no barramento PC/AT contćm 36 linhas. Destas, 31 siio para mais linhas dc cndercęo. mais 
linhas de dados, mais linhas dc imerrupęao c mais canais DMA. bem como energia c alerramento. O restante trata 
das difcrcnęas entre iransfercncius dc 8 bits c 16 bits. 

Quundo apresentou a serie PS/2 como succssora da serie PC c PC/AT. a IBM decidiu que ja era a hora de 
comeęar dc novo. Parte dessa dcci sao pode ter sido tćcnica (nessa ćpoca o barramento PC j:i era rcalmente obsolc- 
ut). mus ouira psute sem duvidu foi causada por um desejo de colocar um obstsiculo no caminho das empresas que 
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fabricavam clones do PC que tinha conquistado utną parte desconfortavelmemc grandę do mercado. Assim, as 
maquinas PS/2 de faixa media e superior foram equipadas com um barramento complctamente novo e protegido por 
unia muralha de patentes e um batalhuo de advogados. 

O resto da indiistria de computadores pessoais reagiu a esse desenvolvimento adotando seu próprio padrdo, o 
barramento ISA (Industry Standard Arquitetura — arquitetura padrao da industria), que era basicamente o 
barramento PC/AT. mas luncionando em 8.33 MHz. A grandę vantagem dessa abordagem era que ela conservava a 
eompatibilidade com as miiquinas e placas existentes. Tambem era baseada om um barramento que a IBM tinha 
licenciado liberalmente para muilas empresas para garantir que o maior ntimero possivel de fabricantes produzissc 
placas para o PC originaJ, fato que acabou se voltando contra a própria IBM e por firn a aiijou do negócio de PCs. 
Ate ha poucos anos, a maioria dos PCs com chips Intel ainda tinha esse barramento, embora tambem tivcsse um ou 
mais outros barramentos. 

Mais tarde, o barramento ISA t'oi ampliado para 32 bits com mais aigumas caracteristicas (por exemplo, para 
multiprocessamento). O novo barramento foi denominado EISA (Extended ISA — ISA estcndido). 

3.6.2 O barramento PCI 

No IBM PC original. a maioria das aplicaęóes era baseada cm lexto. Gradualmente. com a introduęiio do 
Windows, pouco u pouco comeęaram a ser usadas as interfuccs grtificas dc usuario. Nenhuma dessas aplicaęóes exi- 
gia demais do barramento ISA. Contudo, com o passar do tempo, quando muitas aplicaęóes. em cspecial jogos em 
multimidia, comeęaram a usar computadores para apresentar vfdeo dc tcla inteira e movimento total, a situaęao 
sofrcu urna mudanęa radical. 

Vamos fazcr um calculo simples. Considere urna lela de 1.024 X 768 usada para imagens em movimenlo e 
corcs reais (3 bytes/pixel). Urna tela contem 2.25 MB de dados. Para um movimento suave s3o neccssiirias ao menos 
30 tclas por segundo para urna uixa de dados dc 67,5 MB por segundo. Nu vcrdade. e piór do que isso. urna vcz que 
para apresentar um video a partir de um disco rigido, CD-ROM ou DVD, os dados devem passar do ilrive de disco 
para o barramento c ir ate a meraória. Entao, para a apresentaęao, os dados devem novameme percorrer o barramen¬ 
to atć o adaptador grafico. Portanto. precisamos de urna largura de banda de barramento de 135 MB por segundo 
só para o vfdeo. sem contar a largura de banda que a CPU e outros dispositivos precisam. 

O barramento ISA tuncionava a taxa maxima de 8,33 MHz e podia transferu 2 bytes por ciclo para uma largu- 
ru de banda maxinta de 16,7 MB/s. O barramento EISA podia movimentar4 bytes por ciclo, pani alcanęar 33,3 MB/s. 
Claro que nenhuma dessas taxas scquer chegava perto do que era necessario para apro.sciuaęao dc video em tela. 

Em 1990, a Intel percebeu o que estava para acontecer e desenvolveu um novo barramento com uma largura 
de banda muilo mais alta do que a do próprio barramento EISA. Foi denominado barramento PCI (Peripheral 
Cnmponent Intcrconnect Bus — barramento de interconcxao de componente perilerico). Para ineentiVar sua 
utilizaęao, u Intel patenteou o barramento PCI c entao passou lodas as patentes para domthio ptiblico, de modo que 
qualquer empresa podia construir penfericos para esse barramento sem ter de pagar royalties. 

A Intel tambem organizou um consórcio de empresas, o PCI Special Inlcrcst Group, para gercnciar o futuro 
do barramento PCI. O resultado dessas aęócs foi que o barramento PCI alcanęou enonne popularidadc. 
Praticamente todos os computadores com chips Intel a partir do Pentium tern barramento PCI. e muitos outros com¬ 
putadores tambem. A Sun tern ate mesmo uma versiio da UltraSPARC quc usa o barramento PCI, a UltraSPARC 
liii. O barramento PCI e apresentado com todos os dctalhes telricos em Shunley e Anderson (1999) e Solari e Willsc 
(2004). 

O barramento PCI originaJ transferiu 32 bits por ciclo c funciommi cm 33 MHz (tempo de ciclo de 30 nanos- 
segundos) para uma largura de banda total de 133 MB/s. Em 1993, foi lanęado o PCI 2.0 e em 1995 saiu o PCI 2.1. 
O PCI 2.2 tern caracteristicas para computadores portateis (principalmenle para economizar energia da bateria). O 
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barramento PCI funciona cm ale 66 MHz e pcxle manipular transferencias dc 64 bits para urna largura de banda toial 
de 528 MB/s. Com cssc lipo de capacidade o video de tela inlcira c movimento total ć viavcl (admitindo quc o disco 
e o rcsto do sistema cstejani a allura do servięo). Seja como for, o barramcnto PCI nao sera o gargalo. 

Mcsmo que 528 MB/s pareęa muilo nipido, ainda ha dois problemas. Em primeiro lugar, nao era muito bom 
para urn barramento dc memória. Em segundo lugar, nao era compauvel com todas aquclas antigos placas ISA exis- 
tenlcs por ai. A soluęao imaginada pela Intel foi projetar computadorcs com trcs ou mais barramentos, como mos- 
tra a Figura 3.49. Nessa figura vcmos que a CPU pode se comunicar com a memória principal por urn barramcnto 
dc memória cspeeiaJ, e que urn barramcnto ISA pode ser conectado ao barramento PCI. Essc arranjo atendia a todos 
os requtsiios e. por conscqućncia, foi amplamentc usado nu dćcada dc 1990. 

Dois eomponcnies fundamentais dessa urquitetura sao os dois chips pontes. fabricados pela Intel — dai scu 
interesse em todo csse projeto. A pontc PCI conecta a CPU, a memória e o barramento PCI. A ponte ISA conecta 
o barramento PCI ao barramcnto ISA e tambem suporta urn ou dois discos IDE. Qua.se todos os sistemas Pentium 
4 vem com um ou mars encaixes PCI livrcs para acrcscentar novos periferieos de ulta vclocidade c urn ou mais 
encaixes ISA para acrcscentar periferieos dc baixa vclocidadc. 

A grandę vantagem do arranjo da Figura 3.49 ć que a CPU tem urna largura dc banda extrcmamentc alta para 
a memória usando um barramento de memória propricliirio; o barramcnto PCI ofcrcce alta largura de banda para 
periferieos rapidos. como discos SCSI, adaptadores graficos etc.; e as antigas placas ISA ainda podem ser usadas. 
O retangulo USB na figura sc referc ao Univcrsal Serial Bus. que seni discutido mais adiantc neste capitulo. 

Seria bom sc houvessc apenus um tipo de płaca PCI. Infclizmcntc nao ć essc o caso. Ha opęóes para tensao. 
largura c temporizaęao. 

Computadorcs mais antigos geralmcnte usam 5 volts e os mais novos tcndcm a usar 3,3 volts, portamo o bar¬ 
ramcnto PCI suporta ambos. Os conectores siło os mesmos cxceto por dois pedacinhos de plastico quc estilo Id para 
impedir que as pessoas insirant urna płaca de 5 volts cm um barramento PCI dc 3,3 volls ou vice-versa. Felizmente 
existcm placas universais que suportam arnbus as tensóes c podcm ser ligadas a quaisqucr dos tipos dc cncaixe. 
Alem da opędo dc tensao, as placas tambćm tem versóes de 32 bits c 64 bits. As placas de 32 bits tem 120 pinos; 
as de 64 bits tćm os mesmos 120 pinos mais 64 pinos adicionais, ampliaędo analoga a do barramcnto IBM PC para 
16 bits (veja a Figura 3.48). 

Um sistema de barramcnto PCI que suporta placas de 64 bits tambem pode aceitar placas de 32 bits, mas o 
inverso nao ć verdade. Por fint. barramentos c placas PCI podem funcionar em 33 MHz ou 66 MHz. A opędo e fcita 
ligando um pino a fontc de energia ou ao fio terra. Os conectores sdo identicos para ambas as velocidadcs. 

No finał da dćcada de 1990, praticamcnle todos concordavam quc o barramento ISA estava morto, portanto os 
novos projetos o cxc!uirain. Contudo. nessa mesma ćpoca a resoluędo de monitores dnha aumentado, em alguns casos 
para 1.600 X 1.200, c a dcmanda por vfdeo de tela inteira e movimento total tambćm aumentaram. em especial no con- 
tcxto dc jogos de alto grau de interaęao. portanto a Intel acrescentou mais um outro baiTamento só para comandar a 
płaca gnifica. F.sse barramento foi denominado barramento AGP i Accelerated Graphics Port Bus — barramcnto 
dc porta grńfica acdentda). A versdo inicial, AGP 1.0, funcionava a 264 MB/s, o que foi definido como lx. Embora 
mais lento que o barramcnto PCI. foi dedicado a comandar a płaca gnifica. Com o passar dos anos sairam novas ver- 
sócs. com AGP 3.0 funcionundo a 2,1 GB/s (8x). Um sistema Pentium 4 moderno e ilustrado na Figura 3.50. 

Nesse projeto. o chip pontc agora ć central c conecta as cinco peęas mais importantes do sistema: a CPU, a 
memória, a płaca gnifica, o controludor ATAP1 e o barramcnto PCI. Em algumas variaęóes ele tambem tem supor- 
tc para Ethernet e outros disposiiivos de alta velocidade. Os dispositivos dc menor velocidadc sao ligudos ao barra¬ 
mento PCI. 
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A parte interna do chip ponte ć dividida em duas partes: a ponte de memória e a ponte de E/S. A ponte de 
memória conecta a CPU com a memória c com o adaptador grafice. A ponte de E/S conecta o controlador ATAPI. 
o barramento PCI e. opcionalmente. outros dispositivos rapidos de E/S com uma conexao direta de ponte que liga 
um ao outro. As duas pontes sao conectadas por uma interconexao dc velocidade muito alta. 

O barramento PCI e slncrono como todos os barrumentos de PC desdc o IBM PC original. Todas as transaęóes 
no barramento PCI ocorrem entre um mestre. cujo nome oficial e iniciadnr, e um escravo, ofieialmentc denomina- 
do ulvo. Para manier baixo o ntimero de pinos PCI. as linhas de endereęos c dados sao multiplexadas. Desse modo. 
nas plucas PCI sao nccessdnos somente 64 pinos para endereęo mais sinais de dados. ainda que o PCI suporte endc 
rcęos de 64 bits c dados de 64 bits. 

Os pinos dc endereęo e de dados multiplexados funcionam da seguinte mancira. Em uma operaęao de leitura, 
durantc o ciclo 1, o mestre coloca o endereęo no barramento. No ciclo 2 o mestre removc o endereęo c o barramen¬ 
to muda de sentido, de modo que o escravo possa usa-lo. No ciclo 3 o cscruvo entrega os dados requisitados. Em 
operaęócs de escrita, o barramento niio tern de virar porque o mestre coloca o endereęo e tambem os dados. Nao 
obstanie, a transaęao minima ainda dura trćs ciclos. Se o cscravo nao conseguir responder em trćs ciclos, ele pode 
inscrir estados de espera. Tambem sao permitidas transferfincias dc blocos sem limite de tamanho, bem como diver- 
sos outros tipos de ciclos de barramento. 

Arbitragem de barramento PCI 

Para usar o banamento PCI. um dispositivo dcve antes adquiri-lo. A arbitragem de barramento PCI usa um arbi¬ 
tra de barramento centralizado, como mostra a Figura 3.51. Na maioria dos projetos, o arbitra de barramento <5 inse- 
rido em um dos chips ponte. Todo dispositivo PCI tern duas linhas dcdicadas que vik> dele ate o arbitra. Uma linha. 
REQ#. e usada para requisitar o barramento. A outra linha. GNT#. e usada para reeeber concessóes de barramento. 

Para rcquisitar o barramento. um dispositivo PCI (incluindo a CPU) ativa REO# c espera ate ver sua linha GNT# 
ativada pelo .irbitro. Quando esse evento acontece. o dispositivo pode usar o barramento no próximo ciclo. O algo- 
ritmo usado pelo arbitra niio e delinido pcla cspeeificaęao do PCI. Arbitragem por varredura cireular, arbitragem 
nor prinridudc e outros espucmas sao todos permitidos. Clara que um bom arbitra sera juslo. de modo a nao dcixar 
alguns dispositivos espentndo para semprc. 

Uma concessao dc barramento servc para inna transaęao apenas. embora teoricarnente o comprimento dessa tran¬ 
saęao nao tenha limite. Se urn disposilivo quiser cxccutar uma segunda transaęao e nenhum outra disposilivo estiver 
rcquisilando o barramento. ele pode entrar novamcntc. embora seja preciso inserir um ciclo ocioso entre transaęóes. 


0 banamento PCI usa um 
artoitro de banamento 
centralizado. 








Contudo, cm circunstiincias especiais. na ausencia dc concorrencia pelo barramcnlo. um dispositivo pode fazer urna 
transaęao atras da outra sem ter dc inserir um eiclo ocioso. 

Se um mestre dc transferencia de dados estiver rcali/ando urna transferencia muito longa c algum outro dis- 
positivo requisitar o barromento, o arbitro pode negar a linha GNT#. O mestre de transferencia dc dados em ques- 
tao devc monitorar a linha GNT#: portanto. quando perccbcr a ncgaęao, dcve liberar o burramento no próximo eiclo. 
Essc esquema permite transferencias muito longas (quc siło cftcientes) quando ha somentc um mestre de transfe¬ 
rencia de dados eandidato, mas ainda assim da resposta rapida a dispositivos concorrentes. 


Sinais de barramento PCI 


O barramento PCI tern varios sinais obrigatórios. mostrados na Tabela 3.4(a), e varios sinais opcionais, mos- 
trados na Tabela 3.4(b). O restante dos 120 ou 184 pinos sio usados para energia, atemunento e divcrsas funęSes 
relacionadas c nio aparecem nessa lista. As colimas Mestre (iniciador) e Escravo (alvo) informam quem ativa o 
sinal em urna transaęao norma!. Se o sina! for ativado por um disposilivo di terenie (por cxcmplo, CLK), ambas as 
colunas sao dcixadas em branco. 

Agora vamos examinar brevemente cada um dos sinais do burramento PCI. Comeęaremos com os sinais obri- 
galórios (32 bits) e em seguida passaremos para os sinais opcionais (64 bits). O sinal CLK comanda o barramento. 
A maioria dos outros sinais e sfnerona com ele. Ao conlrario do barramento ISA, urna transaęao de barramento PCI 
comeęa na borda dcscendentc do CLK, quc esta no meio do eiclo, em vcz de estar no inicio. 


Tabela 3.4 (a) Sinais obrigatórios de barramento PCI. (b) Sinais opcionais de barramento PCI. 


1 Sinal 

T.lnhag 

Mestre 

Escravo 

Descricao | 

CLK 

1 



Re logio (33 MHz ou 66 MHz) 

AD 

32 

X 

X 

Linhas de endereęo e de dados multiplexadas 

PAR 

1 

X 


Bit de paridade de endereęo ou dados 

C/BE 

4 

X 


Comando de barTamento/mapa de bits para bytes habilitados 

FRAME# 

1 

X 


indica epie AD e C/BE estao atwadas 

IRDY# 

1 

X 


Leitura: mestre aceitara; esenta: dados presentes 

IDSEL 

1 

X 


Seleciona espaęo de configuraęao em vez de memória 

DEVSEL# 

1 


X 

Escravo decodificou seu endereęo e esta na escuta 

TRDY# 

1 


X 

Leitura: dados presentes: esenta: escravo aceitara 

STOP* 

l 


X 

Escravo quer mterromper a transaęao imediatamente 

PERR# 

1 



Erro de paridade de dados detectado pelo receptor 

SERR# 

1 



Eno de pandade de endereco ou erro de sistema detectado 

REQ# 

1 



Arbitragem de barramento: reąuisięAo de propriedade de barramento 

GNT# 

l 



Aibitragem de barramento: concessdo de propnedade de barramento 

RST# 

t 



Restaura o sistema e todos os dis post tivos 

, w 

I Sinal 

Linhas 

Mestre 

1 Escrawo 

Descrięao n 

REQ64# 

1 

X 


RequisięAo para realizar transaęao de 64 bits 

ACK64# 

l 


X 

Permiss&o concedida para urna transaęio de 64 bits 

AD 

32 



32 bits adicionais de endereęo ou dados 

PAR64 

1 

X 


Paridade para os 32 bits extras de endęreęo/dados 

C/BE# 

4 

X 


4 bits adicionais para habilitaęóes de bytes 

LOCK 

1 

X 


Trava o barramento para pennitu multlplas transaęóes 

SBO# 

1 

X 


Presenęa de dados em urna cache remota (para um multlprocessadorl 

SDONE 

1 



Escuta realizada (para um multlprocessadorl 

INTi 

4 



Reguimędo de uma mterrupężo 

JTAG 

5 



Sinais de testes IEEE 1149.1 JTAG 

M66EN 

1 



Ligado a energia ou ao tarra (66 MHz ou 33 MHz| 


(b> 
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Os 32 sinais AD sio para cndcrcęos c dados (para transaęóes dc 32 bits). Em gorał, durantc o cicio 1 o endc- 
rcęo e ativado c durante o cido 3 os dados sio ativados. O sina! PAR e um bu dc paridade para AD. O sinal C/BE# 
e usado paru duas coisas difcrcntcs. No cicio 1, ele contćm o comando de bamuncnto (kia 1 paiavru. Icia bloco 
etc.). No cicio 2 clc contćm um mapa dc bits dc 4 bits quc informa quais bytcs da puiavra de 32 bits sio va)idos. 
Usando C/BE# e poss(vcl ler ou escrever 1, 2 ou 3 bytcs quaisquer, bem como unia palavra inteira. 

O smal FRAME# e alivado pelo mestrc de transtcrćncia de dados para iniciar urna transaęao de barramento. 
Informa ao cscruvn que os comundos de endcrcęo c barramento agora sao validos. Em urna leitura, usuulmentc o 
IRDY# e ativudo ao mcsmo tempo que o FRAME#. Ele informa que o mestre esta pronto para aceitar dados que estio 
chcgando. Em uma cscritu o IRDY# e alivado mais larde. quando os dados cstio no barramento. 

O sinal IDSEL esta relacionado ao lato de quc todo dispositivo PCI deve ter um espaęo de configuraęio de 256 
bytes que outros disposilivos podcm ler (ativando IDSEL). Esse espaęo de configuraęao contćm propriedades do dis- 
positivo. A caractcristica plug-and-play de alguns sistemas operacionais usa o espaęo de configuraęao para saber 
quais dispositivos cstio no barramento. 

Agora chcgumos aos sinais ativados pelo escravo. O primeiro deles. DEVSEL#. anuncia que o escravo detcctou scu 
endercęo nas linhas AD c esta prcparado para rcalizar a transaęa Se DEVSEL# nao for ativado dentro de um certo limi- 
te de tempo, o mestre esgoia sua tcmporizaęao e supOe quc o dispositivo cndcrcęado esta ausenle ou avariado. 

O segundo sinal de escravo ć TRDY#, que o escravo ativa cm leituras para anunciar que os dados cstio nas 
linhas AD c cm cscritns para anunciar que esta prcparado para aceitar dados. 

Os tres sinais seguintes sio para notificar erros. O primeiro deles e STOP#. que o escravo ativa se algo desas- 
troso acontecer e ele quiscr abortar a transaęao corrcnte. O seguinte. PERR#. ć usado para notificar um erro de pari 
dade no cicio unterior. Para urna leitura, clc ć ativado pelo mestre: para uma escrita. clc ć ativado pelo cscruvo. Cabc 
ao receptor cxecutar a aęio adcquada. Por lim, SERR# ć para reportar erros de endereęo e erros de sistema. 

Os sinais REO# e GNT# sao para fazer arbitragem de barramento. Eles nio sio assegurados pelo mestre de 
transfercncia dc dados em questio. mas por um dispositivo quc quer se tomar mestre dc transfercncia de dados. O 
ultimo sinal obrigatório e RST#. usado para rcinicior o sistema, seja porquc o usuario apertou a lec la RESET seja 
porque algum dispositivo do sistema notou um erro latał. Alivar esse sinal rcslaura todos os dispositivos c reinicia 
o computador. 

Agora chegamos aos sinais opcionais, cuja moioria esta rclacionada i espansao de 32 bits para 64 bits. Os 
sinais RE064# c ACK64# permitem que o mestre pcęa permissao para cundu/.ir umu transaęao dc 64 bits c pennite 
que o escravo accitc. rcspectivamcnte. Os sinais AD, PAR64 e C/BE# sio apenas extcns5es dos sinais eorresponden- 
tes de 32 biLs. 

Os tres sinais seguintes nao estio relacionados aos 32 bits contra 64 bits. mas a sistemas muiliprocessadores. 
ulgo que as plucus PCI nio sao obrigadas a suportar. O sinal LOCK permite que o barramento seja travado para mul- 
tiplas transaęóes. Os dois seguintes estio rclucionados i escuta do barramento para monter coerencia dc cache. 

Os sinais INTx sio para requisitar intcmipęóes. Uma płaca PCI pode contcr ate qualro dispositivos lógicos 
separados c coda um pode ter sua própriu linha de requisięio de intcmipęao. Os sinuis JTAG sio para proccdimen- 
to de tesle IEEE 1149.1 JTAG. Por firn, o sinal M66EN e ligado alto ou ć ligado baixo para estabelecer a vclocida- 
dc de relógio. Nio deve mudar durante a operaęio do sistema. 

Transaęóes de barramento PCI 

Na realidadc, o barramento PCI ć muito simples (no que di/, respeito a barramentos). Para ter uma ideia mc- 
Ihor dele, considerc o diagrama temporal da Figura 3.52. onde podemos ver uma transaęao de leitura seguida por 
um cicio ocioso, seguida por uma transaęao de escrita pelo mcsmo mestrc dc transfercncia de dados. 


figura 3.52 

Exemplos de transacóes de 
banamento PCI de 32 bits. 
Os tres pnmetros ctclos sio 
usados para uma operaęao 
de leitura. em seguida um 
cicio ocioso e depois tres 
ciclos para uma operaęao 
de esenta. 





Quando a bonia descendente do relógio acontcce durantc T,, o mestre poc o endereęo de memória em AD e o 
comando de barramento cm C/8E#. lintao ativa FRAME# para iniciar a transaęao dc barramcnto. 

Durantc T,. o mestre libera o barramcnto de endereęo para dcixar que ele retome cm prcparaęao para o 
comando do cscravo durantc T,. O mestre lambem muda C/BE# para indicar quais bytes na palavra endereęada cle 
qucr habilitar. isto e, quais qucr quc sejam lidos. 

Em T 5 , o cscravo ativa DEVSEL# de modo que o mestre saiba que ele obteve o endereęo e estd planejando res- 
ponder. Alem disso. póe os dados nas linhas AD c ativa TRDY# para informar ao mestre que fez isso. Se o cscravo 
nao puder responder com tanta rapidez, ainda assim ele ativaria DEVSEL# para anunciar sua presenęa. mus mante- 
ria TRDY# negado atć que pudesse obter os dados que Id es tao. Essc procedimcnto introduziria um ou mais estados 
de espent. 

Nesse exemplo (e muitas vczcs na rcalidade), o ciclo seguinte <5 ocioso. Comeęando cm T, vemos o mesmo 
mestre iniciando urna escrita. Ele comeęa colocando o endereęo e o comando no barramcnto. como sempre. Só quc 
agora, no segundo ciclo, dc ativa os dados. Urna vez que o mesmo disposilivo esta comandando as linhas AD. nao 
ha neccssidade de um ciclo de retomo. Em T 7 . a memória aceila os dados. 

3.6.3 PCI express 

Embora o funcionamento do barramento PCI seja adequado para a maioria das aplicaęfics existentes hoje, a 
neccssidade de maior largura dc banda dc E/S esta causando urna confusao na antes limpa arquitctura interna do 
PC. A Figura 3.50 deixa claro que o barramento PCI nao ć mais o elemento central que mantem unidas as partes do 
PC. O chip ponte se apossou de parte desse papę!. 

A essencia do problemu ć quc hd coda vez mais dispositivos de E/S muito rapidos para o barramcnto PCI. 
E!evar a frcqućncia dc relógio do barramcnto nao e urna boa soluęao porquc entao os problcmas de ulraso diferen- 
cial no barramento. interferćncia na fiaęao e efeitos de capucitdncia só ticariam piores. Toda vez quc um dispositt- 
vo dc E/S lica muito ripido para o barramento PCI (como as placas graficas, disco rigido. redes etc.) a Intel ucres- 
centa urna porta especial para o chip ponte para permitir quc o disposilivo desvie do barramcnto PCI. Claro quc isso 
lambem nao ć uma .soluęao de longo prozo. 

Um outro problemu com o barramento PCI e quc as placas siło muito grundes. nao cabem em Iaptops c os fabri- 
cunlcs gosturiam dc produzir dispositivos menores ainda. Alćm disso, olguns deles gostariam de repartir o cspaęo 
interno do PC, colocando a CPU c a memória dentro dc uma pcquena caixa selada c o disco rigido dentro do moni¬ 
tor. Com as placas PCI ć imposs(vcl Inzer isso. 

Divcrsas soluęócs forum propostus. mas a que tern mais probabilidadc de vcncer (c cm grandę parte porque a 
Intel estii por tras dela) ć denominada PCI Express. Ela tern pouco a vcr com o barramcnto PCI e, na vcrdadc. nem 
e um barramento, mas o pessoal do marketing nao quer larg ar milo do famoso nomc PCI. PCs que contćm cssa solu¬ 
ęao jd cstSo no mercado lid algum tempo. Vamos vcr como cles funcionam. 

Arąultetura do PCI Express 

O coraęao da soluęao PCI Ex press ć se livrar do barramento paralelo com seus muitos mestres e cscravos e 
pussar para um projeto bascado cm concxóes seriais ponto a ponto dc alta velocidade. Essa soluęao representa uma 
ruplura radical com a trudięao do barramento ISA/EISA/PCI e tomu emprestadas muitas idćias do mundo das redes 
locais, em especial a Ethernet cominada. A ideia basica se resume ao seguinte: no fundo, um PC e um conjunto dc 
chips de CPU, memória e controladorcs de E/S que prccisa ser intcrconeclado. O que o PC Exprcss faz e fomecer 
um comutador de uso gcrol para concctar chips usando ligaęóes seriais. Uma configuraęao tfpica e ilustrada na 
Figura 3.53. 

Como a figura mostra. a CPU, a memória e a cachc cstdo conecladas ao chip ponte no modo tradicional. A novi- 
dade aqui e um comutador conectado a ponte. possivelmcntc parte do próprio chip ponte. Cada um dos chips de E/S 
tern uma conexao ponto a ponto dcdicadu com o comutador. Cada conexiio consistc em um par de canais unidirccio- 
nais, um que vai para o comutador c outro que vem dele. Cada canal ć composto de dois fios. um para o sinal c outro 
paru o lerra, para dat imunidadc contra ruido allo durante trunsinissuo dc altu vclocidade. Essa arquiieiura subsiiiui- 
rti u atuul por um modelu muito mais uniforme. no qual todos os dispositivos sao tratudos igualmente. 

A arquitctura PCI Exprcss tern trćs pornos de difercnęa cm relaęao ao antigo barramcnto PCI. Jd vimos dois 
deles: um comutador centralizado contra um barramento tnultidrnp e a ulilizaęao de concxóes seriais ponto a ponto 
estreitos contra um barramcnto paralelo largo. O tcrcciro e mais sutil. O modclo conccitual que fundamenta o bar¬ 
ramento PCI e o de um mestre dc tnmsferencia dc dados que cmitc um comando a um cscravo para lor uma paiu- 
vra ou um bloco de pulavros. O do modelo PCI Exprcss e o de um dispositivo quc cnviu um pacote dc dados a um 
outro dispositivo. O conceilo dc um pacote. quc consiste cm um cahcęalho e em uma carga util. e lirado do mundo 
das redes. O cahcęalho contem informaęao dc controlc. o quc climina a neccssidade dos muitos sinais de controle 
presentes no barramento PCI. A carga util contćm os dados u transferu. Na verdade. um PC com PCI Express e 
uma rede de comutaęao de pacotes em miniatura. 

Alem dessas trćs importantes rupturas com o passado. lambem ha diversas pequenas dilerenęas. A quarla e quc 
o código de dctceęao de erro e usado somente nos pacotes, o quc da um grau de confiubilidade mais altu do que o 
barramento PCI. A quinta e que a concxao entre um chip e o comutador ć mais longa do que era, atć 50 cm. para per¬ 
mitir a rcpartięao do sistema A sexta 6 que o sistema pode ser expandido porque um dispositivo pode perleitamentc 
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ser urn outro comutador, o que permite urna drvore de comuladores. A sufi ma i que dispositivos podem ser acres- 
eentados ou removidos do sisteraa enquanto cle esta em operaęao. Por firn, uma vez que conectores seriais sao muito 
menorcs do que os antigos conectores PCI, podem-sc labricar dispositivos e computadores muito menores. No todo, 
uma grandę ruptura em relaędo ao barramento PCI. 

Pilha de protocolos do PCI Express 

Condizentc com o modelo dc uma rcde de comutaędo de pacotcs, o sistcma PCI Exprcss tern uma pilha de pro¬ 
tocolos em camadas. Urn protocnlo e urn conjunto dc regras quc govemam a convcrsa entre duas partes. Uma pilha 
dc protocolos e uma hicrarquia de protocolos que tratam dc quesules difercntes cm camadas diferentes. Por excm- 
plo, considcre uma carta comcrcial. Ela ohedece a ccrtas convcnęóes referent es a localizaędo e ao conteudo do eabc- 
ęalho, ao endereęo do dcstinatdrio, ii data, aos cumprimcntos. ao corpo, a assinutura e assim por dianie. Podemos 
dizer que tudo isso junto ć um protocnlo dc carta. Alćm disso, ha um outro conjunto de eonvenęóes referentes ao 
envclope, como tamanho. local e formulo do endereęo do rcmetente, local e formuło do endereęo do dcstinaldrio, 
local do sclo c assim por dianie. Essas duas camadas c scus protocolos sao independentes. Por cxcmplo, 6 possfvel 
dar um formato completamente diferente ii carta. mas usar o mesmo enve!opc. e vicc-vcrsa. Protocolos em cama¬ 
das sao um projeto modular flcxivel e ha decadas siło muito usados no mundo dos softwarcs dc rcde. A novidadc. 
no caso, ć mon td-los no hardware do barramento’. 

A pilha dc protocolos do PCI Exprcss ć mostrada na Figura 3.54(a). 

Vamos exatninar as camadas dc baixo para eima. A camada mais baixa e a eaniada flsica. Ela trata da movi- 
mentaęao de bits dc um rcmetente para um destinauirio por uma conexao ponlo a porno. Cada conexao ponlo a 
ponto consiste cm um ou mais pares de enlaccs simplcx. isto e, unidirecionais. No caso mais simples, hd um par cm 
cada direędo, mas tambem 6 permitido ter 2,4, 8, 16 ou 32 pares. Cada enlace e denominado via. O numero de vias 
em cada dircęiio deve ser o mesmo. Produtos dc primeira geraęao devem suportar uma taxa de dados em cada dire- 
ęao de no m/nimo 2,5 Gbps, mas cspcra-sc quc logo a vclocidade passe para atć 10 Gbps cm cada dircęiio. 

Diferente dos bsirramentos ISA/E1SA/PC1. o PCI Express nao tern um rclógio mestre. Os dispositivos tern 
libcrdade para comcęar a transmifir tao logo tenham dados a cnviar. Essa liberdade deixa o sistema mais rapido. mas 
tambem lcva a um problemu. Suponha quc um bit I seja codificado como +3 volts c um hit 0. como 0 volts. Se os 
primcims bytes forem todos Os. como o destinaiario sabc quc dados eslao sendo transmilidos? Afinal. uma seqiien- 
cia de 0 bits parcce o mesmo que um enlace ocioso. 

O problemu e rcsolvido usundo o que denominumos cndificacan Nh/lOh. Ncsse csqucma. 10 bits sao usados 
para codilicar um bytc de dados rcais cm um simbolo de 10 bits. Entre os 1.024 sitnbolos de 10 bits possfveis forum 
escolhidos como lcgais os quc !em suficientes irunsięóes de relńgio para manier rcmetente e dcstinaldrio sineroni- 
/.ados nas fronteiras dc bits. mesmo sem um rclógio mestre. Uma con$cqiićncia da codificaęao 8b/l()b e que um 
enlace que tenha uma capacidade brata dc 2,5 Gbps só pode transmilir 2 Gbps (lfquidos) dc dados de usuario. 

Enquanto u camada lisica lida com transmissao de biLs. a camada de enlace trata de transmissiio dc pacotes. 
Ela pega o cabcęalhn e a carga lilii passados para ela pela camada dc transaęao c acrescenta a eles um numero de 








seqitóncia c um código dc corrcęao de cito denoniinudo CRC (Cyclic Red umlamy Check — verificaęao por 
redundancia cielica). O CRC ć gerado pcla execuęao de um certo aigoritmo no cabeęalho c nos dados da carga 
dal. Quando um pacote ć recebido. o destinauirio efetua alguns edlculos no cabeęalho c nos dados e compara o 
resullado eotn o CRC ancxado ao pacote. Se forem compalivcis, o destinatario devolvc um curto pacote de reco- 
nhecimento conlirmando sua correta chegada. Se nao forem compativeis, o destinatario solicita urna reiransmissao. 
Dessc modo. a integridade dos dados melhora muito em rclaęao ao sistema dc barramento PCI, que nao tern nenhu- 
ma prescrięio para vcrificaęiio e retransmissao de dados enviados pelo barramento. 

Paru evitar que um tmnsmissor rapido soterre um receptor lento com pacotes que ele nao pode manipular. ć 
usado um mccanismo dc cnntrole de fluxo que funciona da seguinte mancira: o receptor concede ao transmissor 
um certo niimero dc crćditos quc correspondcm basicamentc ii quamidade de espaęo de bulfer dc que cle dispóc 
para armazenar pacotes que chegam. Quando os creditos se csgotant. o transmissor tem dc parar de cnviar pacotcs 
ate rcccbcr mais crćditos. Esse csqucma. quc e muito usado cm todas as redes. evita a perda de dados cm consc- 
qilćncia da incompatibilidadc entre as vc!ocidadcs do transmissor c do receptor. 

A rumadu dc traasuęao trata das aęóes do barramento. Lcr urna pałam da memória rcquer duas transaęóes: 
urna iniciada pcla CPU nu cunal DMA quc esta requisitando alguns dados c outra iniciada pelo alvo que esta for- 
nccendo os dados. Mas a camada de trunsaęao luz mais do que manipular Icituros c cscritus puras. Ela adiciona valor 
ii transmissao dc pacotcs bruta ofcrccida pcla camada de enlace. Para comeęur, cla pode dividir cada via cm atć oito 
circuitos virtuais. cada um munipulando urna classe dc trdfego difcrentc. A camada dc trunsuęao pode rotuiar paco¬ 
tes dc acordo com sua classe de trifego, o quc pode incluir atributos como ‘alta prioridadc - , 'baixa prioridadc’, 'nao 
escutc’. ‘pode ser entregue fora da ordcm’ e outros mais. 0 comutador pode usar csses rótulos para dccidir qual 
pacote manipulard em seguida. 

Cuda transaęao usa um dos quatro cspaęos dc endcrcęos: 

1. Espaęo da memória (para leituras e escritas comuns). 

2 . Espaęo de E/S (para endcrcęar registradores de dispositivos). 

3. Espaęo de configuraędo (para inicializaęao do sistema etc.). 

4. Espaęo dc mensugem (paru sinalizaęao. intcmipęóes etc.). 

Os cspaęos dc memória c E/S siło semelhantes aos dos sistemas existcntcs. O espaęo de configuraęao pode ser 
usado paru implcmcntar caracteristicas como plug-and-play. O espaęo de mensagem assumc o papel de muitos dos 
sinais dc conirole existentes. E necessario ter algo parecido como csse espaęo porquc nenhuma das linhas de con- 
trole do PCI cxiste no PCI Exprcss. 

A camada de software faz a interface entre o sistema PCI Express e o sistema operacional. Ela pode emular 
o barramento PCI, possibilitando a execuęao de sistemas operacionais cxistcntcs nao modincados em sistemas PCI 
Express. Ciuro que urna opcraęao como essa nao explorard todo o poder do PCI Exprcss. mas a compatibilidade e 
um mai necessario ate que os sistemas operacionais sejam modificados para utilizar totalmcnte o PCI Exprcss. A 
experiencia mostra quc isso pode lcvar algum tempo. 

O fluxo dc informaęóes e ilustrado na Figura 3.54(b). Quando e dado um comando ii camada de software, esta 
o passa para a camada de transaędo, que o formula em termos dc um cabeęalho c urna carga util. Entao cssas duas 
partes siło passadas para a camada dc enlace, que acrcsccntu um numero dc seqilćncia a sua parte anterior c um CRC 
ii poslcrior. Em seguida esse pacote ampliado ć passado ii camada ffsica, quc acrcscentu informaęóes de enquadra- 
mento de dados a cada extremidadc para formar o pacote ffsico. que e, por firn, tronsmitido. Na cxtrcmidade recep¬ 
tora ocorrc o processo inverso — o cabeęalho de enlace e as informaęóes que acompanham o bloco dc dados (trai- 
ler) sao removidos c o rcsultado e passado pora a camada de transaęao. 

0 conceito do acnSscimo dc informaęóes adicionais aos dados ii medida que cle desce pcla pilha dc protoco- 
los ja 6 usudo ha dćcadas no mundo dtis redes com grandę sucesso. A grandę difcrenęa entre urna redę c o PCI 
Exprcss ć quc no mundo das redes o código nas varias camudas quu.se sempre ć um software que faz parte do sis¬ 
tema operacional. No PCI Exprcss cle faz parte do hardware do dixpositivn. 

O PCI Express ć um assunto complicado. Para mais informaęóes. consultc Mayhcw e Krishnan. 2003: e Solari 
c Congdon. 2005. 


3.6.4 Barramento serial universal (USB) 

O barramento PCI c o PCI Exprcss sao bons para ancxar perifericos dc alta veiocidade u ura compuuidor, mas 
sao muito caros paru dispositivos dc E/S dc baixa vclocidadc. como tecludos c mouses. Historicamentc. cada dis- 
positivo pudrao de E/S era conectado ao computador dc modo espeeial. com alguns encaixes ISA c PCI livres paru 
adicionar novos dispositivos. Infelizmcntc. esse csqucma sempre tcve problcmas desdc o infcio. 

Por cxcmplo, cada novo dispositivo de E/S costuma vir com sua pnipria płaca ISA ou PCI. Muilas vezes o 
usuario ć rcsponsavei pelo ujusle dc comutadorcs c ponieś na placu c por asscgurar quc csses ajustes nao entrem 
cm contlito com as outras ptacas. Entao ele precisa abrir a torre, inscrir cuidadosamcntc a płaca fechar a torre e 
reiniciar o computador. Para muitos usuarios esse processo e diffcil e sujeito a erros. Alćm disso, o numero dc 
encaixcs ISA c PCI e muito limitado (cm geral dois ou trcs). Placus plug-and-play climinam o ajuste das pontes. 
mas uindu ussim o usuario tem dc abrir o computador para inserir a płuca c o numero dc cncuixes do burramento 
continua limitado. 
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Para iralar desse problemu, em 1993. representantes dc sete empresas (Compaq, DEC. IBM. Intel. Microsoft. 
NEC e Northern Telecom) se rcuniram para buscar a melhor maneira de anexar dispositivos de E/S a um eotnputa- 
dor. Desde entao. eentenas dc outras empresas sc juntaram a elas. O padrao resultante. lanęado oficialmentc cm 
1998. c denominado USB lt'niversal Serial Bus — barramento serial universal), e 6 amplamentc implementa- 
do cm computadores pcssoais. Urna descrięao mais detalhada desse barramento pode ser encontrada em Anderson 
(1997) e Tan (1997). 

Alguns dos objetivos las empresas que concebcram o USB original e iniciaram o projeto eram os seguintes: 

1. Usuarios nao terao dc ajustar comutadores ou pontes cm placas ou disposilivos. 

2 . Usuarios nao terao dc abrir a torre para insiaiar novos dispositivos de E/S. 

3. Havcra apenas um lipo de cubo. que scrvira para concciar todos os dispositivos. 

4 . A energia para os dispositivos dc E/S dcve ser fomccida por esse cabo. 

s. Ale 127 dispositivos poderao ser ligados a um unico eomputador. 

e. O sistema deve suportar dispositivos de tempo rcal (por cxcmplo, som. telcfone). 

7. Os disposilivos poderao ser instalados com o eomputador em funcionamcnlo. 

8. Nao sera preciso reiniciar o eomputador após a instalaę3o do dispositivo. 

9. O custo de produęao do novo barramento c de seus dispositivos de E/S nao deve ser alto. 

O USB eumprc todos esses objetivos. ił projetado para dispositivos de buixa vclocidade. como teclados. mou- 
scs. edmeras fbtogrdfieas, digitalizadores. telcfones digitais e assim por diantc. A vcrs3o 1.0 tern uma largura de 
banda dc 1.5 Mbps, que e suiicicnte para teclados e mouses. A versao 1.1 funciona em 12 Mbps, que ć sułicientc 
para impressorus. cameras digitais e muitos outros dispositivos. Esses limites baixos toram escolhidos para manter 
o custo baixo. 

Um sistema USB consiste cm um hub-raiz ( rooi hub ) que ć ligado ao barramento principal (veja a Figura 
3.49). Esse hub tern soquetes para cabos que podem ser concclados a dispositivos de E/S ou a eonexóes de expan- 
sao. para fomecer mais soquetes, de modo que a topologia de um sistema USB e uma arvore cuja raiz esta no hub. 
dentro do eomputador. Hd diferentes concctorcs na cxtrcmidade dos cabos do hub-rai/. e na extrcmidade do dispo- 
sitivo para cvitar que, por acidente. os usuarios liguem dois soquetes entre si. 

O cabo consiste em quatro fios: dois para dados, um para energia (+5 volts) e um para lerra. O sistema dc sina- 
Iizaęao transinitc um 0 como uma transięao dc tensao c um 1 como a ausencia de uma transięao da tensao. portan- 
to longas carreiras de Os geram uma corrente de pulsos rcgular. 

Quando um novo dispositivo de E/S ć ligado. o hub-rai/. dctccta esse evcnto c interrompc o sistema opcracio- 
nal, que entao pcsquisa para dcscobrir quc dispositivo e de quanla largura de banda USB ele precisa. Se o sistema 
opcracional decidir que ha suficicntc largura dc banda para o dispositivo, designa um cndcrcęo cxclusivo para cle 
(I - 127) e descarrcga esse endereęo e outras informaęoes em registradores de configuraęao dentro do dispositivo. 
Desse modo. novos dispositivos podem ser acrcsccntados com o eomputador em funcionamcnlo. sem exigir nenhu- 
ma configuraęao da parte do usuario e sem ter de instalar novas placas ISA ou PCI. Placas nao inicializadas eome- 
ęam com endereęo 0. por isso podem ser endereęadas. Para simptificar o cabeamcnto, muitos dispositivos USB con- 
tem conexóes inlemas que aceilam dispositivos USB adieionais. Por excmplo, um monitor poderia ter dois soquetes 
de conexiIo para acomodar os alto-falantes esquerdo e dircilo. 

Em termos lógicos, o sistema USB pode ser visto como um conjunto de ramificaęóes que saem do hub-raiz 
para os dispositivos de E/S. Cada dispositivo pode subdividir sua própria ramifieaęao em ale 16 ramos sccundarios 
para diferentes tipos de dados (por cxemp!o, audio e v(dco). Dentro de cada ramo secundario, os dados fiuem do 
hub-raiz alć o dispositivo, ou ao contrario. Nao ha trdfego entre dois dispositivos de E/S. 

Exalamente a cada 1 .(X) ± 0,05 ms, o hub-raiz transinitc um novo quadro para manier todos os dispositivos sin- 
cronizados em relaęao ao tempo. Um quadro ć associado a um caminho de bit e consiste em pacotes, o primcim dos 
quais vem do hub-raiz ate o dispositivo. Paeotcs subscqiicntcs no quadro lambem podem ir nessa dircęao ou voltar 
do dispositivo ate o hub-raiz. A Figura 3.55 mostra uma scqilćncia de quutn> quadras. 
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Na Figura 3.55 nao ha nenhum servięo a ser rcalizado nos ąuadros 0 e 2. portanto basta apenas um pacote SOF 
(Start of Frame — inicio do quadro). Esse pacote 6 sempre transmilido para todos os dispositivos. O Quadro 1 e utną 
sondagem ( pall ), por exemplo, unia requisięao para que um digitalizador devolva os bits que encontrou na imagem 
que usta digitalizando. 0 Quadro 3 consiste em entregar dados a alguin dispositivo. por exemplo, urna impressora. 

O USB suporta quatro tipos de quadros: dc controle, isóerono. de volume e de interrupęao. Quadros de contro- 
le sao usados para configurar dispositivos. transmitir-lhes comandos e inquirir seu estado. Quadros isócronos sao para 
dispositwos de tempo teal. como microfones, alto-felanles e telefones que precisam enviar ou aceitar dados a inter- 
vaios dc tempo exatos. Eles tern um atraso muito previsivcl. mas nao tazem retransmissoes quando ocorrem erros. 

Quadnos de volume sao para grandes transferencias de e para dispositivos para os quais nao ha requisitos de 
tempo real. como impressoras. Por lim, quadros de interrupęao sao necessarios porquc o USB nao suporta intemip- 
ęóes. Por exemplo. em vez de fezer com que o teclado cause urna interrupęao sempre que urna tecla e acionada, o sis- 
tema operacional pode fezer urna sondagem a cada 50 ms para eoletnr qualquer tecla acionada quc esteja pendente. 

Um quadro consiste em um ou mais pacotes, aiguns possivelmente na mesma direęao, Existem quatro tipos de 
pacotes: permissao (token), dados, apresentaęao ( handshuke) e especial. Pacotes de permissao vem da raiz atć um 
dispositivo e servem para controle do sistema. Os pacotes SOF, IN e OUT na Figura 3.55 sao pacotes de permis¬ 
sao. O pacote SOF (Start of Frame - Inicio dc Quadro) ó o primeiro dc cada quadro e marca o inicio do quadro. Se 
nao houver nenhum trabalho a realizar, o pacote SOF e o linico no quadro. O pacote de permissao IN e urna sonda¬ 
gem que pede ao dispositivo que retome certos dados. Campos no pacote IN informam qual caminho estii sendo 
sondado dc modo que o dispositivo saiba quais dados retomar (sc tiver multiplas corrcntes). O pacote de permissao 
OUT anuncia ao dispositivo que serao enviudos dados a elc. Um quarto tipo de pacote de permissao, SETUP (nao 
mostrado na figura), e usado para configuraęao. 

Alem do pacote de permissao hd tres outros tipos de pacote: DATA (usado para transmitir atć 64 bytes de infor- 
maęiio cm qualquer direęao), pacotes de apresentaęiio e pacotes especiais. O fonnalo de um pacote dc dados e mos- 
trado na Figura 3.55. Consiste em um campo de sincronizaęao de 8 bits, um pacote de tipo de 8 bits (PID), a carga 
util e um CRC de 16 bits (Cyclic Redunduncy Check — verificuęao dc redundancja cielica) para detectar erros. 
S3o definidos tres pacotes de apresentaęao: ACK (o pacote de dados anterior foi rccebido corretamcnte), NAK (foi 
detectado um erro CRC) e STALL. (favor esperar — agora estou ocupado). 

Agora vamos examinar a Figura 3.55 mais uma vez. A cada 1,00 ms um quadro deve ser cnviado do hub-raiz, 
mesmo que ndo haja trabalho a realizar. Os quadros 0 e 2 consistem em apenas um pacote SOF, indieando que nao 
ha trabalho a exccutar. O Quadro 1 e uma sondagem, portanto comeęa com pacotes SOF e IN do computador ao dis- 
positivo de E/S, seguidos por um pacote DATA do dispositivo para o computador. O pacote ACK informa ao dispo- 
sitivo que os dados foram recebidos corretamente. Caso ocorra um erro, um NAK e devolvido ao dispositivo e o 
pacote e retransmitido quando for de volume. mas nao quando os dados forem isócronos. A estrutura do Quadro 3 
e semelhante i do Quadro 1, exceto que agora o tluxo de dados e do computador para o dispositivo. 

Após a conclusao do padrao USB em 1998, o pessoal que o projetou nao Unha nada para fezer, en tao come- 
ęou a trabalhar em uma nova versao de alta velocidade do USB, denominada USB 2.0. Esse padrao e semelhante 
ao antigo USB 1.1 e compativel com ele, exccto pela adięao de uma terceira velocidadc, 480 Mbps, as duas exis- 
tentes. Alem disso ha algumas pequenas diferenęas, como a interface entre o hub-raiz e o controlador. O USB 1.1 
tinhaduas interfeces dispt>niveis. A primeira. LUCI (Universal Host Contruller Interface — interface univer- 
sal de controlador de hospedeiro), foi projetada pela Intel e passava grandę parte da carga para os projetistas de 
software (leia-se: Microsoft). A segunda. OHCI (Open Host Controller Interface — interface aberta de contro¬ 
lador de hospedeiro), foi projetada pela Microsoft e passava grandę parte da carga para os projetistas de hardwa¬ 
re (leia-se: Intel). No USB 2.0 todos concordaram com uma nova interface unica denominada EHCI (Enhanccd 
Host Controller Interface — interface melhorada de controlador de hospedeiro). 

Agora que o USB funcionava a 480 Mbps, passou a compedr com o barramento serial IEEE 1394. mais conhc- 
cido como FireWire. que funciona a 400 Mbps. Embora praticamente todo novo sistema Pentium atualmenie venha 
com USB 2.0, nao e provtivel que o 1394 desapareęa porque tem o apoio da industria de eletrńnicos de consumo. 
Camcorders. aparelhos de DVD e disp<isitivos shnilarcs continuarao a ser equipados com interfeces 1394 no futu¬ 
ro próximo porquc os febneantes desses dispositivos nao quercm bancar a despesu dc mudar para um padrao dife- 
rente que e pouco melhor do que o disponivcI no momento. Alćm disso, os consumidores tambem nao gostam de 
mudar de padrao. 

3.7 Interface 

Um sistema dc computador tfpico de pequeno a tnedio porte consiste em um chip de CPU, chips de memória 
e aiguns controladores de E/S, todos conectados por um barramento. Ja estudamos memórias, CPUs e barramentos 
com certo detalhe. Agora chegou a hora de exaininar a ultima parte do quebra-cabeęa, os chips de E/S. E por meio 
desses chips que o computador se comunica com o mundo cxtcrior. 


3.7.1 Chips de E/S 

Ha intimeros chips de E/S dispomvcis no mcrcado e novos chips sao lanęados o tempo todo. Entre os chips 
comuns estao conuoladorcs UART. USART e controladores de CRT. controladores de disco e PIOs. Uma UART 
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(L'niversal Asynchronous Receivcr Transmitter — transmissor receptor assincrono universal) o um chip que 
pode ler um byte do barramento de dados e entrega-lo um bit por vez a um terminuj por raeio de uma linha serial, 
ou reueber dados de um terminal. Em geral as UARTs permitcm varias velocidades de 50 a 19.200 bps: largura de 
caracteres de 5 a 8 bits; l, 1.5 ou 2 bits de lim: e fornecem paridade par. impar ou nenhuma paridade. tudo sob con- 
trole de programu. USAJRTs (Universal Synehronous Asynchronous Receiver Transmitters — transmissor 
receptor assincrono sincrono universal) podem manipular transmissao sineronu usando uma variedade de proto- 
colos. bcm como executando lodas as funęóes da HART. Como ja vimos UARTs no Capitulo 2. agora vamos estu- 
dar a interface paralela como exemp!o de chip de E/S. 

Chips PIO 

Um chip PIO (Parallcl Input/Output — entrada e salda paralela) tfpico e o Intel 8255A. mostrado na 
Figura 3.56. Ele tern 24 linhas quc podem fazer interface com qualquer dispositivo compatfvel com TTL, por exem- 
plo, teclados. comutadores, luzes ou impressoras. Rcsumindo, o programa da CPU pode escrevcr um 0 ou 1 para 
qualquer linha ou lcro estado dc entrada de qualquer linha, o que da grandę flexibilidade. Um pequeno sistema com 
CPU que use uma PIO, muitas vczes pode substituir um płaca completa cheia dc chips SST ou MSI. em especial 
quando se trata de sistemas embutidos. 

Embora a CPU possa configurar o 8255A de muitas maneiras carregando registradores dc estado no interior 
do chip, concentraremos nossa atenęao nos modos mais siraples de operaęao. O modo mais simples de usaro 8255A 
ć como tres portas independentes de 8 bits. A. B e C. Associado com cada porta hd um registrador com amostragem 
dc 8 bits. Para estabeleccr as linhas em uma porta, a CPU apenas escrevc um numero de 8 bits no registrador eor- 
respondente. e esse mimero de 8 bits aparcce nas linhas de salda e lica ali ate que o registrador seja reescrito. Para 
usar uma porta para entrada, a CPU apenas le o registro correspondente. 

Ouiros modos de operaęao exccutam troca de dados com dispositivos extcmos. Por exemplo, para dar salda 
para um dispositivo que nao estd sempre pronto para aceilar dados, o 8255A pode apresentar dados em uma porta 
de saida e esperar que o dispositivo devolva um pulso informando que aceitou os dados e quer mais. A lógica neces- 
saria para amostrar uiis pulsos e toma-los disponiveis para a CPU esta incluida no hardware do 8255A. 

Pelo diagramu funcional do 8255A podemos ver que, ulem dos 24 pinos para as tres portas. ele tem oito 
linhas que se conectam diretamente com o barramemo de dados. uma linha de seleęSo de chip, linhas de leitura 
e escrita e uma linha para reiniciar o chip. As duas linhas de endereęo selecionam um dos quatro registradores inter- 
nos correspondentes as portas A. B, C e ao registrador de estado. que tem bits que determinam quais portas sao para 
entrada e quais para saida. alćm de outras funęóes. Normalmente as duas linhas de endereęo estao conectadas aos 
bits de ordom babia do barramento de endereęo. 



3.7.2 Decodificaęao de endereęo 

Ate agora fomos propositalmente superticiais sobre como a seleęao do chip e ativada na memória e nos chips 
de E/S que jd vimos. Agora 6 hora de examinar com mais cuidado como isso e feito. Vamos considerar um compu- 
tador embutido simples de 16 bits quc consiste em uma CPU, uma F.PROM de 2KB X 8 bytes para o programu, 
uma RAM dc 2KB X 8 bytc para os dados e uma PIO. Ksse pequeno sistema pode ser usudo como um protótipo 
para o cerebro de um brinquedo barato ou um eietrodomestico simples. Uma vez em produęao, a EPROM poderia 
ser substituida por uma ROM. 

A PIO pode ser selecionada de um entrc dois modos: como um verdadeiro dispositivo de E/S ou como parte 
da memória. Se optarmos por usd-ln como um dispositivo de E/S. entao devcmos scleciona-la usańdo uma linha de 
barramento explicita que indica que um dispositivo de E/S esta sendo rcfcrenciudo. e nao a memória. Se usarmos a 
outra abordagem. E/S mapcada para a memória. entao temos de Ihe designar 4 bytes do cspaęo de memória para 
as tres portas e o registrador de controlc. A eseolhu e. de certa forma, arbitraria. Escolheremos E/S inapeada para a 
memória porque ela ilustra alguns aspectos interessantes da interface de E/S. 

A EPROM neccssita de 2 KB de cspaęo de endereęo, a RAM tambem prccisa de 2 K de espuęo de endereęo 
e a PIO precisa de 4 bytes. Como o espaęo de endereęo de nosso cxcmplo e 64 K. temos de escolhcr onde colocar 
os tres dispositivos. Uma opęiio posstvel e mostrada na Figura 3.57. A EPROM ocupa endereęos ate 2 K. a RAM 
ocupa endereęos dc 32 KB a 34 KB c a PIO ocupa os 4 bytes mais altos do espaęo de endereęo. 65532 u 65535. Do 
ponto dc vista do programador. nao faz difercnęa qunis endereęos sao usados: contudo. isso niio acontcce quando 
se trata da interface. Se tivessemos optado por endereęar a PIO via espaęo E/S. ela nao prccisarin de nenhum ende¬ 
reęo de memória. mas prccisarin de quatro espaęos de endereęo de E/S. 





EPROM em ondereęos 0 RAM em endereęos 8000H PIO em FFFCH 



0 4K 8K 12K 16K 20K 24K 28K 32K 36K 40K 44K 48K 52K S6K 60K 64K 


Com as designaęóes dc cndcrcęo da Figura 3.57, a EPROM devc ser selecionada por quaisqucr endercęos de 
memória de 16 bits da forma (XX)(X)xxxxxxxxxxx fbindrio). Em outras pulavras, qualquer endereęo de memóna 
cujos 5 bits de ordem alta sao todos Os cai na parte inferior da memória de 2 KB, portanto, na EPROM. Por isso. a 
sclcęao de chip da EPROM poderia ser liguda u urn comparador de 5 bits, com urna dc suas enlradas permanente- 
mentc ligada a (XXXX). 

Urna maneira melhor de conseguir o mesmo efeito e usar urna porta OR de cinco entradas com as cinco entra- 
das ligadas Hs linhas dc cndcrcęo Al I a A15. Sc. e somente se. todas a cinco linhas forem 0, a saida sera 0, o que 
aliva CS (quc e ativado baixo). Infelizmente, nao cxistc nenhuma porta OR dc cinco enlradas na serie SSI padrao. 
O mais próximo quc podcmos encontrar e urna porta NOR de oito entradas. Nao obstanie, aterrando tres entradas e 
invencndo a safda, podcmos corrigir o sinal, como tnostra a Figura 3.57(a). Chips SSI sao tao baratos que. exccto 
em eireunstdncias exccpcionais, usar urn desses chips de modo ineficicntc nao e problema. Por convcnęao, entra- 
das nao utilizadas nao siio mostradas em diagramas de circuito. 

O mesmo princtpio pode ser usado para a RAM. Contudo, a RAM dcve responder a endercęos binarios da 
forma 10(XX)xxxxxxxxxxx. portanto ć prcciso urn invcrsor adicional. como mostra a figura. A decodificaęao de 
endercęos PIO e um pouco mais complicada, porquc ela ó selecionada pclos quatro endercęos da forma 
1111111111111 lxx. Um possivel circuito que assegure CS somente quando o endereęo corrcto aparcccr no barra- 
mento de cndcrcęo e mostrado na figura. Ele usa duas portas NAND de oito entradas para alimcnlar urna porta OR. 
Para montar a lógica dc decodificaęiło dc endereęo da Figura 3.58(a) usando SSI sao nccessarios seis chips — os 
quutro chips de oito entradas. urna porta OR e um chip com tres inversorcs. 

Contudo, se o computador rcalmente for somente urna CPU, dois chips de memóriu e a PIO, podcmos usar um 
ostratagema para conseguir urna decodificaęao de endereęo muito mais simples. Esse estratagema se bascia no falo 
de quc todos os endercęos EPROM, e somente endercęos EPROM, tern um 0 no bit de ordem alta, Al 5. Por conse- 
guintc, basta ligar CS a Al5 diretamente, como mostra a Figura 3.58(b). 

Ncsse ponto, a dccisao de colocar a RAM em 8.000 H pode parccer muito menos arbitrdria. A decodificaęao 
da RAM pode ser feita observando que somente endercęos vdlidos da forma 10xxxxxxxxxxxxxx estao na RAM. 
portanto 2 bits de decodificaęao sao suficientes. 

De modo semelhante. qualquer endereęo que comecc com 11 deve ser um endereęo PIO. Agora, a lógica com* 
pleta de decodificaęao sSo duas portas NAND c um inversor. Como para montar um inversor basta ligar as duas entru- 
das dc urna porta NAND. um unico chip quad NAND e mais do que suficientc. 

A lógica de decodificaęao de endereęo da Figura 3.58(b) e denominada decodificaęao parciał de endereęo. 
porque nao sao usados os endercęos completos. Ela tent essa propriedadc: urna leitura dos endercęos 
<XX)HXXXXXXXXXXX). (XX)1I00(XXXXXXXX) ou 001(XXXXXXXXXXXX) dani o mesmo resultado. Na vcrdade. todo ende¬ 
reęo na metade inferior do espaęo dc endereęo selecionani a EPROM. Como os endercęos extras nflo sflo usados, 
nao ha dano algum. mas se estivemtos projetando um computador que podera ser cxpandido no futuro, o que e 
improvavel no caso de um brinqucdo, devcmos cvitar a decodificaęao parciał porquc ela ocupa muito espaęo de 
endereęo. * 

Urna outra tćcnica comum de decodificaęao de endereęo e usar um decodificador como o mostrado na Figura 
3.12. Conectando as tres entradas as trós linhas de endereęo de ordem alta. obtemos oito satdas correspondentes aos 
endercęos nos primciros 8 K. nos 8 K subscqiientes e assim por dianie. Para um computador com oito RAMs. cada 
urna 8 K X 8. urn chip como esse forneee a decodificaęao complcta. Para um computador com oito chips de raemó- 
ria 2 K X 8, um unico decodificador tambem e suticienle, contunto quc cada um dos chips de memóna cstęja loca- 
lizado em poręóes distintas de 8 KB do espaęo de endereęo. (Lembre-se de que observamos anteriormente que a 
posięao dos chips dc memória e E/S dentro do espaęo dc endercęos tern importancia.) 


3.8 Resumo 

Computadores sao construidos com busc cm chips dc circuito integrado que contfim miniisculos elcmentos 
comutadores denominados portas. As portas mais contuns sSo AND. OR. NAND, NOR e NOT. Circuitos simples 
podem ser moniados ao se combinar diretamente portas individuais. 

Circuitos mais complexos sao multiplexadorcs. dcmultiplexadorcs, codilicadores. dccoditicadorcs. dcslo- 
cadorcs c ULAs. Funęóes booleanas arbitnirias podem ser programadas usando um PLA. Se forem necessiirias 
niuitas funęóes booleanas. os PLAs costumam ser mais cficicntcs. As leis da algebra booleana podem ser usa- 
das para transformur circuitos de umu forma para outra. Em muitos cusos e possivcl produzir circuitos mais eco- 
nómicos dessa maneira. 


I 
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A ariimetica de computadores ć eletuada por soinadorcs. Um snmador completo dc um só bit pode ser eons- 
truido usando dois meios-somadores. Um somador para urna palavra multibil pode ser construfdo com a eonexao 
dc vdrios somadores completos dc tal modo que pennita o vai-um para seu vi/.inho da csqucrda. 

Os componcntes de mctnórius (estiiticas) sao latchcs e flip-flops: cada um dos quais pode armazenar um bit dc 
informaęao. Esses bits podem ser combinados linearmente formando latches octais e llip-flops. ou por logaritmos 
formando memórias oompletas que usam paiavras. Ha memórias de varios tipos: RAM. ROM. PROM. EPROM, 
EEPROM e flashes. RAMs estaticas niło precisam ser renovadas; elas mantóm seus valorcs armazenados enquanto 
a energia estiver ligada. RAMs dindmicas, por outro lado. devem ser renovadas periodicamentc para eompensar a 
fuga dc corrente dos pcquenos capacitores do chip. Os componcntes dc um sistema de eomputador sao eonectados 
por barramentos. Muitos pinos — nao (odos — dc um chip dc C”U tfpico eomnndam diretamente urna linha de bar 
ramento. As linhas de barramento podem ser divididas em linhas de endereęo, de dados e de controle. Barramentos 
sineronos sao comandados por um relógio mestre. Barramentos assfncronos usam trocas completas para sineroni- 
zar o oscravo com o mestre. 

O Pentium 4 e um esemplo de urna CPU moderna. Sistemas modcmos quc usam esse chip tern um barramen¬ 
to de memória, um barramento PCI, um barramento ISA e um barramento USB. O barramento PCI pode transferir 
64 bits por vez a uma laxa de 66 MHz, o quc o toma rapido sufieiente para quase todos os perifericos, mas nao rapi- 
do sulicicnte para memória. 

Comutadores, luzes. impressoras e muitos outros dispositivos de E/S podem Inzer interfaee com computado- 
res usando chips de E/S paralela, como o 8255A. Esses chips podem ser confignrados como parte do espaęo de E/S 
ou do espaęo de memória, eonforme a necessidade. Eles podem ser total ou parcialmentc decodilleados, dependen- 
do da aplicaęao. 


Problemas 



1. Um especiulista em lógica entra em uma lanchoncte drive-in e diz: "Quero um hambiirguer ou um eachorro- 
quentc e batatas fritas". Infelizmente o cozinheiro nao sabe (ou nao se importu) se ‘e’ tem precedencia sobrc 









ou’. Pani ele. tanio faz uma ou outra interpretaęao. Quais dos scguintes casos sao interpretaęócs validas do 
pedido? 

a. Apenas um hambtirguer. 

b. Apenas um caehorro-quciue. 

c. Apenas batatas fritas. 

d. Um caehorro-ąuente e batatas fritas. 

e. Um hambtirguer e batatas fritas. 

f. Um caehorro-ąuente e um hamburguer. 

g. Todo os trcs. 

h. Nada — o espcciaiisla cm lógica passa fomc por ser um espertinho. 

2. Um missionano perdido no sul da Califómia para cm um entroncamento da rodovia. Ele sabe que duas gan- 
gucs de motociclistas frequentam a area; uma delas semprc diz a verdade c a outra scmpre menie. Ele quer 
saber qual estrada lcva a Disney landia. Quc pergunta deve fazer? 

3. Usc a tabela-verdade para mostrar quc X = (X AND Y) Oft (,Y AND NOT Y). 

4. Existem quatro funęfles booleunas de uma unica variavcl c 16 funęóes de duas variaveis. Quantas funęóes de 
tres variaveis cxistem? E de n variaveis? 

5. Mostre como a funęao AND pode ser construida com base em duas portas NAND. 

6. Usando o chip mulliplexudor de tres variiiveis da Figura 3.11, implcmente uma funęao euja saida ć a parida- 
de das cntradas. isto e, a saida e I se,o somentc se. um numero par de entradas for 1. 

7. Ponlia seu 'eapncetc de raciocfnio'. O chip multiplexador de tres variavcis da Figura 3.11 pode calcular uma 
funędo arbitraria dc ąuatro variaveis booleanas. Descreva como e. a tftulo de excmplo. desenhe o diagramu 
lógico para a funęao que ć 0 sc a palavra inglesa para a fila da tabela-verdade tivcr um numero par de letras, 
ć 1 se tiver um numero impar dc letras (por excmplo, 0000 = zero = qualro letras —> 0; 0111 = scven = cinco 
letras -* 1; 1101 = thirtccn = oito letras -» 0). Diea: se denominarmos a quarta entrada varidvel D, as oito 
linhas dc entrada podem ser ligadas a V, x ., terra. D ou IX. 

8. Desenhe o diagramu lógico pora um decodifieador dc 2 bits, um cireuito com ąuatro linhas de entrada. cxata- 
mente uma das quuis e alta em quulqucr instantc dado. e duas linhas de saida cujo valor binario dc 2 bits infor- 
tna qual entrada e alta. 

9. Desenhe o diagramu lógico para um dcmultiplexador dc 2 bits, um cireuito cuja unica linha dc entrada e dirc- 
cionada para uma das ąuatro linhas dc saida dependendo do eslado das duas linhas de controle. 

10. Desenhe novamente o PLA da Figura 3.14 com dctalhes suficicntes para mostrar como a funęao lógica majo- 
ritória da Figura 3.3 pode ser implemcntada. lmportante: nilo esqueęa de mostrar quais conexócs estao presen- 
tes em ambas as matrizes. 

11. O que esse cireuito faz? 


C 

o 


12. ,Um chip MSI cnmum ć um somador de 4 bits. Quatro desses chips podcm ser concctados para formar um 
somudor de 16 bits. Quantos pinos vocć espera que tenha o chip do somador de 4 bits? Por quS? 

13. Um somador de n bits pode ser construfdo fazendu um arranjo em cascata de n somadores complctos era sćric 

com o vem-um no cstdgio i. Ć„ vindo da saida o cstdgio i 1. O vem-um para o estagio 0. C„, ć 0. Se cada 
cstdgio lcvar T nanossegundos para pnxluzir sua soma <’ vai-um. o vem-um para o estagio i ndo sera valido utć 
iT nanossegundos após u inicio da adięao. Para n grandę, o tempo reąuerido para o vai-um fazer o transporte 
acelcrado ( ripple) ate o esuigio dc ordcm alta pode ser inaceitavehnente longo. Projete um somador que fun- 
cione com mais rapidez. Dica: cada C t pode ser cxpresso em termos dos bits dc operando A f . , e /i, „ bem 

como do vai-utn C, ,. Usando essa relaęao e possivel exprcssar C, como uma funęao das cntradas para os 
estagios 0 a i - 1, de inodu que todos t>s vai-um possam ser gerados simultancamcnte. 

14. Vamos admilir que todas as portas da Figura 3.18 lenhum um atraso de propagaęao dc 1 nanossegundo e que 
podemos ignor.tr todos os outros atrasos. Vamos admilir tambem que temos um cireuito com essa configura- 
ęao. Qual o menor tempo para esse cireuito ter certcza de que um bit de saida e valido? 

15. A ULA da Figura 3.19 e eapaz dc fazer adięóes de complcmento 2 dc oito bits. Ela tambćm pode fazer sub- 
traęóes de complemcnto 2? Caso sua resposta seja positiva. expliquc como. Caso contrario, modiftque-a para 
que possa efetuar subtraęóes. 

16. Uma ULA de 16 bits e compnsta de 16 ULAs de I bit, cada uma com um tempo dc adięao dc 10 nanossegun¬ 
dos. Se houver I nanossegundo adicional dc atraso dc propagaęao dc uma ULA para a seguinte. quanto tempo 
lcva para aparecer o rcsultado de uma soma dc 16 bits? 



Capitulo 3 0 Nivel Lógico Digital 131 




Organizaęao Estruturada de Computadores 132 


17. As vezes e util que uma ULA de 8 bits como a da Figura 3.19 gere a constante -1 como safda. Proponha dois 
modos para fazer isso. Especifique os valores dos scis sinais de controle para cada um deles. 

18. O que i o cstado quiescentedas entradas Se R para um latch SR eomposio de duas portas NAND? 

19. O circuito da Figura 3.25 e um flip-flop que e acionado na horda ascendenle do relógio. VIodifique esse cir- 
cuito para produzir um Hip-flop que e acionado na horda descendente do rclógio. 

20 . A memória 4 X 3 da Figura 3.28 usa 22 portas AND e tres portas OR. Se o circuito tivesse de ser expandido 
para 256 X 8, quantas portas de cada scriam necessarias? 

21. Para ąjudar a pagar o novo computador pcssoal que comprou, voce esta presrando consultoria a novos fabri- 
cantcs de chips SSL Um de seus clientes esta pensando cm produzir um chip que contem 4 flip-flops D. cada 
um contendo Q c tambem O, a pedido de um cliente potencialmcntc importante. O projeto proposto agrupa 
todos os quatro sinais de relógio, tambem a pedido. Nao ha preset nem elear. Sua tarefa e fazer uma avalia- 
ęao profissional do projeto. 

22 . A medida que cada vez mais memória e espremida cm um unico chip. o nii mero dc pinos necessarios para 
endcrcęd-la tambem aumenta. Muitas vezes e inconvenicntc ter grandes numeros de pinos de endereęo em um 
chip. Proponha um meio de cndereęar 2" pulavras dc memória usando menos do quc n pinos. 

23 . Um computador com um barramento dc dados de 32 bits de largura usa chips dc memória RAM dinamica 
1 M X 1. Qual ć a menor memória (em bytes) que esse computador pode ter? 

24 . Referindo-nos ao diagramu tcmporal da Figura 3.35, suponha quc vocfi desacelerou o relógio para um perio- 
do de 20 nanossegundos em vez dc 10 nanossegundos. como mostra a figura, mas que as restrięóes dc tempo- 
rizaętio permancccram inalteradas. Na piór das hipóteses, quanto tempo a memória teria para colocar os dados 
no barramento durante T 3 após MREQ estar ativado? 

25 . Noyamcnte com referenda i Figura 3.35. suponha que o relógio permaneceu u 100 MHz, mas Tds foi aumen- 
tado para 4 nanossegundos. Podcrium ser usados chips de memória de 10 nanossegundos? 

26 . Na Figura 3.35(b), T ML e cspecificado para ser no mfnimo 3 nanossegundos. Vocć pode imaginar um chip no 
qual cle seja negativo? Especilicamcntc, a CPU poderiu ativar MREQ antes de o endereęo estar estavel? Sim 
ou nao? Juslifique sua resposta. 

27 . Considere que a transferencia de bloco da Figura 3.39 foi realizada no barramento da Figura 3.35. Quanto mais 
largura de banda obtemos usando uma transferencia dc bloco cm eomparaęao com transferóncias individuais 
para blocos longos? Agora considere que a largura do barramento e 32 bits. e nao 8 bits. Responda a pergun- 
ta novamente. 

28. Denote os terapos dc transiędo das linłias de endereęo da Figura 3.36 como T A , e T*,. e os tempos dc transi- 
ęao de MREQ como T MREQI e T MREQ2 e assim por diante. Anote todas as desigualdades implicadas pela troć a 
completa. 

29 . A maioria dos barramentos de 32 bits perniite leituras e escritas de 16 bits. Hu ulguma ambigilidade sobre onde 
colocar os dados? Discuta. 

30 . Muitas CPUs tem um dpo especial de ciclo de baiTamento para rcconhecimento de intemipęiio. Por qufi? 

31. Um computador de 64 bits com um barramento de 200 MHZ requer quatro ciclos para ler uma palavra de 64 
bits. Que largura de banda do barramento a CPU consome na piór das hipóteses? 

32 . Uma CPU de 32 bits com linhas de endereęo A2-A31 requer que todas as reterencias ii memória sejam alinha- 
das. Isto e. palavras tem dc ser cndereęadas em multiplos de 4 bytes, meias-paluvras tem de ser cndereęadas em 
bytes pares. Os bytes podem estar em qualquer lugar. Ha quantas combinaęóes legais para leituras de memória 
c quantos pinos sao necessdrios para cxpressś-lus? De duas respostas e justifique cada uma com um caso. 

33 . Por que e imposstvel que o Pentium 4 funcione em um barramento PCI de 32 bits sem perder qualquer fun- 
eionalidade? Afinal, outros computadores com um barramento de dados de 64 bits podem fazer transferencias 
de 32. 16 e atć mesmo 8 bits de largura. 

34 . Suponha que uma CPU tenha uma cache de nfvel 1 e uma cache dc nivel 2 com tempos dc acesso de 1 nanos- 
segundo e 2 nanossegundos. rcspectivamente. O tempo de acesso a memória principal e 10 nanossegundos. Se 
20% dos acessos resuluiretn em presenęa na cache de mvel 1 e 60% dos acessos resultarcm em presenęa na 
cache de nivei 2, qual e o tempo medio dc acesso? 

35 . E provtivel que um sistema embulido com um chip 8051 incluiria um chip 8255A? 

36. Culculc a largura de banda de barramento necessaria para apresentar um lilme em corcs reais VGA (640 x 
480) a 30 quadros pi>r segundo. Considere que os dados devam passar duas vczes pelo barramento. uma vez 
do CD-ROM para a memória c uma vez da memória para a tcla. 

37. Na sua opiniao, qual sinal do Pentium 4 eomanda a linha PCI FRAME# do barramento PCI? 

38. Qual dos sinais da Figura 3.52 nao e estrilamcntc ncccssiirio para o funcionumento do protocolo de barramento ? 

39 . Um sistema PCI Express tem enlaccs de 5 Mbps (eapacidade bruta). Quantos fios de sinal sao necessarios em 
cuda direęao para operaęao 8x ? Qual e a eapacidade bruta em cada direęao? Qual i a eapacidade l(quida em 
cada direęao? 

40 . Um computador tem instruęócs quc requcrcm dois ciclos de barramento cada: um para buscar u instruęiio e um 
para buscar os dados. Cada ciclo de barramento lcva 10 nanossegundos e cada instruęiio lcvu 20 nanossegun¬ 
dos (isto ć, o tempo dc processamento interno e desprez(vel). O computador tambem tem um disco com 2.048 
setores de 512 bytes por trilha. O tempo de rotaęao do disco e 5 ms. A que porcentagem de sua velocidade nor- 






mai o compulador ć rcduzido durantc uma transfcrćncia DMA se cada transterencia DMA dc 32 bits leva um 
ciclo dc barramento? 

41 . A tnaxima carga titil de um pacotc dc dados isócrono no barramento USB e 1.023 bytes. Admilindo quc um 
dispositivo pode enviar só um pacotc dc dados por quadro. quaJ e a miixima largura de banda para um unico 
dispositivo isdcrono? 

42 . Que efcito causaria o acrćscimo de uma terceira linha de enlrada sobre uma porta NAND selecionando a PIO 
da Figura 3.58(b) se essa nova linha fosse concctada a A13? 

43. Escrcva um programa para simular o comportamento dc uma matriz m X n de portas NAND com duas entra- 
das. Esse eircuito. contido cm um chip, tcm j pinos dc cntrada c k pinos dc saida. Os valores dc j, k. m en sao 
parametros dc compilaęao da simulaęao. O programa deve iniciar lendo cm uma ‘lista de liaęao' ondc cada fio 
especifica uma entrada e uma salda. Uma entrada e um dos j pinos dc cntrada ou a salda de alguma porta 
NAND. Uma safda ou e um dos k pinos de safda ou uma cntrada pura alguma porta NAND. Entradas nao usa- 
das sao I lógico. Após ler a lista dc liaęao, o programa deve imprimir u safda para cada uma das 2 1 entradas 
possfvcis. Chips dc porta vctorial como cste sao muito usados para colocar circuitos sob cncomcnda em um 
chip porquc a maior parte do trabalho (depositar o arranjo vetorial no chip) e indcpcndcnte do eircuito a ser 
implantado. Somentc a liaęao ć especifica para cada projeto. 

44 . Escreva um programa para ler duas cxprcssóes booleanas arbiuórias c veriticar se elas representam a mesma 
funęao. A linguagem dc entrada dcvc incluir letras unicas como variiivcis booleanas, operandos AND, OR c 
NOT, c parćntcscs. Cada cxpress2o deve caber cm uma linha dc cntrada. O programa deve calcular as tabelas- 
vcrdadc para ambas as funęócs e compani-las. 

45 . Escreva um programa para ler um conjunto dc cxpressdcs booleanas e calcular as matrizes 24 X 50 e 50 X 6 
necessarias para implementa-las com o PLA da Figura 3.14. A linguagem de cntrada deve ser a mesma do pro- 
blcma anterior. lmprima as matrizes na impressora linear. 


( 


Capitulo 3 0 Nivel Lógico Digital 133 






Nivel da 

microarąuitetura 


O nIvel acima do lógico digitol i o nlvel de microarąuitetura. Sua funcao <5 implcmcntar o nlvel ISA (Instruetion Set 
Architccture — arquitctura do conjunto de intruęóes) acima dele. como ilustrado na Figura 1.2. O projeto do nlvel de 
microarąuitetura depende da ISA que esta sendo implemcntada. bcm como das metas dc custo e desempenho do com- 
putador. Muitas ISAs modemas. cm particular projctos RISC, tern instruęóes simples quc usualmente pudem ser exccutadas 
cm urn linico ciclo dc relógio. ISAs mais complexas, como a Pentium 4, pudem dcmandar inuitos ciclos para exccutar urna 
unica instruęao. Exccutar urna msirucao pode reąucrcr localizar os operandos na niemória, !er esses operandos e armazenar 
rcsullados dc volta na memória. A scąiiencia de operaęóes dentro dc urna unica instruęao muitas vezes Ieva a urna abordagem 
do controle diferente da adotada para ISAs simples. 

4.1 Um exemplo de microarąuitetura 

O ideał seria que nos ipresentassemos esse tópico cxpIicando os principios gerais do projeto dc microarąuitetura. 
Infclizmente. nao ha principios gerais: cada microarąuitetura e um caso espccial. Por conseąiiencia, resohemos discutir um 
exemplo detaihado. Para nossa ISA quc servini de cxcmplo. escolhcmos um subconjunto da Java Virtuai Machinę, como pro- 
metemos no Capitulo I. Hsse subconjunto contćm somente instruęóes com inteiroS. portanto nós o denominamos IJVM. 
Discutiremos a JVM complcta no Capitulo 5. 

Comeęuremos pela dcscrięuo da microarąuitetura sobre u qual impleincntarcmos a IJVM. arąuitctura quc tern algumas 
instruęóes complexas. Muitas dessas arąuitcturas costumam ser implcmentadas ao se rccorrcr a microprogramaęao, como dis- 
cutimos no Capitulo 1. F.mboru u IJVM seja peąucna. e um bom ponto de partida para descrever o controle e a seąiiencia de 
instruęóes. 

Nossa microarąuitetura contera um microprograma (em ROM) cuja tarefa e buscar. decodilicar e executar instruęóes 
IJVM. Nao podemos usar o interpretador Sun IVM para o nticroprograraa porąue precisamos de um microprograma diminu- 
to quc comande com eliciencia as portas individuais no hardware propriamente dito. Por comparaęao, o interpretador Sun JVM 
foi escritu em t por ąuestao de portabilidade. e nao pode controiar o hardware no nivcl de detalhc que precisamos. Urna vcz 
ąuc o hardware utilizado consiste somente nos componentes biisicos descritos no Capitulo 1. em teoria, se o leitor entender 
complctamcnte esse capitulo. deveni estar habilitado a sair e comprar urna sacola de iransistorcs e montar esse subconjunto da 
maąuina JVM. Os estudanlcs ąuc conseguirem execular essa tarefa com sucesso ganhariio creditos exlras (e um exame psiąuia- 
trico completo). 

Um modelo convcnienle para o projeto dc microarąuitetura e pensar no projeto como um problemu de programuęao no 
qual cada instruęao no ntvel ISA ć urna lunęao a ser ehamada por um programu mestre. Nesse modelo. o programu mestre e 
um laęo simples. sem lim. ąue determina urna funęao a ser invocada. chama a lunęao e entao comeęa dc novo. algo muito parć 
cido com a Figura 2.3. 

O microprograma tem um conjunto de variavcis denominado estado do compuualor. ąue pode ser acessado por todas as 
funęóes. Cada lunęao alterj ao menos algumas das variaveis ąue compóem o estado. Por excmplo. o contador de programu 
i Program Counter — PC) e parte do estado. Ele indica a localizaęao da memória ąue contem a proxima funęao tisto e. instru- 
ęao ISA) a ser executada. Duninie a exccuęaa de cada instruęao. o PC e incrcmentado para indicar a proximu instruęao a ser 
cxccutada. 

Instruęóes IJVM sao curtas e fuccis. Cada instruęao tern alguns cumpos. usualmente um ou dois, c cudu um deles tem 
algumas linulidadcs especlłicas. O primeiro campo de toda instruęao ć o opcode (abrcviatura dc operation codc código de 
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operacja*)i. que idcniitica a instruęao informando se cla ć um ADD ou um BBANCH. ou qualqucr outra coisa. Muilas 
instruęóes tem um campo adicional que ospeeifica o opcrando. Por excmplo. instruęóes quc accssam uma variavel 
local prceisam de um campo que idenlifiquc qual varidvel. 

Essc modelo dc execuęao, as vezes denominado cido buscar-cxecutar. ć lilii cm termos abstratos e lambem 
pode ser a base para impleincntaęao de ISAs como a UVM. isto ć, que tenham instruęóes eomplexas. Logo adian- 
te descrcveremos como ela funciona, qual e o aspecto da microarquitetura e como ela e controlada pelas microins- 
truęóes; cada uma delas controla o caminho de dados durantc um ciclo. A lista de microinstruęóes forma o micro- 
programa, que aprescntarcmos e discutiremos dctalhadamentc. 

4 . 1.1 O caminho de dados 

O caminho de dados e a parte da CPU que contem a ULA, suas entradas e suas saidas. O caminho dc dados 
de nossa microarquitetura de exemplo e mostrado na Figura 4.1. Embora tenha sido cuidadosamente otimizado para 
interpretar programas IJVM, ele guardu uma razoavcl scmclhanęa como o caminho de dados usado na mnioria das 
maquinas. Contem varios registradorcs de 32 bits aos quais atributmos nomes simbólicos como PC. SP e MDR. 
Embora alguns desses nomes sejam familiares. e importantc entender que esses registradorcs sao acessiveis apenas 
no nivel de microarquiletura (pelo microprograma). Elcs recebem esses nomes porque usualmcnte contem um valor 
correspondente ii variavel do mesmo nome nu arquitetura do mvel de ISA. A maior parte dos registradorcs pode diri- 
gir seu contcudo para o barramento B. A safda da ULA comanda o desiocador e cm seguida o barramenlo C, cujo 
valor pode ser escrito em um ou mais registradorcs ao mesmo tempo. Por enquanto nao ha nenhum banamento A; 
udicionarcmos um muis adiantc. 

A ULA i idćntica as mostradas nas figuras 3.18 e 3.19. Sua funęao ć determinada por scis linhas dc controle. 
O segmento de rcta diagonal com róluio '6' na Figura 4.1 indica que ha seis linhas de controle de ULA, a saber F 0 
e F, para determinar a operaęao da ULA: ENA e ENB para habilitar as entradas individualmentc: INVA para invcrtcr 
a entrada esquerda e INC para foręar um vai-um para o bit de ordcm baixa, efetivamente adicionando I ao rcsulla- 
do. Contudo. nem todas as 64 combinuęócs de linhas dc controle dc ULA fazem algo de util. 

Algumas das combinaęócs mais intercssantes sao mostradas na Tabela 4.1. Nem todas essas funęóes sao neces- 
siirias para a IJVM, mas. para a JVM completa. muitas delas viriam a calhar. Em muitos casos, ha viirias possibi- 
lidades de conseguir o mesmo rcsultado. Nessa tabelo, -r significa o 'mais' aritmetico e — significu o 'menos' 
aritmćtico; ussim. por exemplo. -A significa o complemenlo dc dois de A. 
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Taneia 4.1 Combinaęoes uteis de sinais de ULA e a funęao executada. 
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A ULA da Figura 4.1 precisa dc duas cntradas de dados: uma enirada esqucrda (A) e urna entrada dircita (B). 
Ligado ii enirada esquerda esld um rcgistrador de rctenęao, H. Ligado a entrada direita estó o barranienio B que pode 
ser oarregado por cada uma de nove fontes, indicadas pelas novc setas einza que chegam alć ele. Um projeto alter- 
naiivo, eom dois barrumentos complelos, lem um conjunlo diferente dc opęfies de projelo c sera discutido mais 
adiante neste capitulo. 

H pode ser oarregado oom a escolha dc uma funęao ULA que passe diretamentc da enirada direita (vinda do bar- 
ramento B) aić a salda da ULA. Uma funęao desse lipo seria somar as eniradas da ULA. porem oom ENA ncgado, de 
modo quc a entrada esqucrda e foręada a zero. Adicionar zero ao valor no barramento B resulia somenle o valor no 
barramenlo B. Entao csse rcsultado pode ser passado pelo desiocador sem modificaęio e armazenado em H. 

Alćm das funęoes citadas, duas outras linhas de oontrole podem ser usadas indepcndentcmente para oontrolar 
a salda da ULA. ŚLLfl (Shift Lefi Logical) desloca o contcudo para a esquerda por I byle. preenchendo os 8 bits 
menos signilkativos com zcros. SRA1 (Shift Right Arithmctic) desloca o contcudo para a dircita por 1 bit. deixan- 
do inalterado o bit mais signiftcatim 

E explicitamcntc possfvel ler e escrever o mesmo registrador em um unico ciclo. Por exemplo, 6 permitido 
colocar SP no barramento B. desativar a entrada esquerda da ULA. habilitar o sinal INC e armazenar o resultado em 
SP, desse modo incrcmentando SP de 1 (vcja a oitava linha na Tabela 4.1). Como um rcgistrador pode ser lido e 
escrito no mesmo ciclo sem produzir lixo? A soluęao e que leitura e escrita na verdade sao cxecutadas em instan- 
les diferentes dentro do ciclo. 

Quando um rcgistrador ć sclccionado como a entrada direita da ULA. seu valor ę colocado no barramento B 
no inicio do ciclo e ali e manudo conlinuamcntc durantc todo o ciclo. Entao a ULA rcaliza scu trabalho. produzin- 
do um rcsultado quc passa pelo desiocador c entra no barramento C. Próximo ao finał do ciclo. quando sabc-se que 
as safdas da ULA c desiocador siło cstńveis. um sinal dc rclógio ativa o armuzenamenio do conleudo do barramen¬ 
to C e o passa para um ou mais dus registradorcs. Um desses rcgistradorcs pode perieitumente ser aquele quc for 
neceu sua saida ao barramento B. A temporizaęao exata do caminho de dados possibilita ler e escrever o mesmo 
rcgistrador em um dnico ciclo. como dcscrcvcrcmos a seguir. 


Temporizaęao do caminho de dados 

A temporizaęao desses eventos e most rada na Figura 4.2. Um pulso curto e produzido no imcio de cada ciclo 
dc rclógio. Ele pode ser derivado do rclógio pnncipal, como mostra a Figura 3.20(0. Na borda descendentc do 
pulso, os bils quc comandarao todas as portas sao ajustados. o quc leva um tempo finito e conhecido. Aw. Dcpois 
o registrador necessiirio no burramento B e sclccionado e conduzido ate o barramento B. Dcmora Ax para o valor 
ser estavcl. Entao a ULA e o desiocador comeęam a operar com dados validos. Após um outro Ay, as safdas da ULA 
e do desiocador estio estavcis. Após um A; adicional. os rcsultados se propagarum ao longo do barramento C atć 
os rcgistradorcs. onde podem ser carregados na borda ascendente do próximo pulso. 

A carga dcve ser acionada pela borda ascendente do próximo pulso e de forma rapida, de modo que. se alguns 
dos rcgistradorcs dc entrada forem alterados, o efeito ndo sera sentido no barramento C ate muiio tempo após os 
registradorcs terem sido carregados. Tambem na borda ascendente do pulso. o rcgistrador que comanda o barramento 
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Figura 4.2 

Diagrama de temporizaęao de 
um ciclo de caminho de 
dados._ 


Registradores carregados 



B para de faze-lo preparando-se para o próximo ciclo. MPC. MIR c a memória siio mencionados na figura; em brevc 
disculiremos seus papćis. 

Ś irnportantc pcrccber que. ainda que nao haja nenhum elemento de armazcnamcnto no caminho de dados. ha 
um tempo de propagaęao finito por ele. Urna altcraę5o de valor no barramento B só provocara urna alteraęao no bar- 
ramento C após um tempo finito (por causa dos atrasos finitos de cada etapa). Por conseqiiencia, mesmo que um 
armazcnamcnto ultere um dos registradores de entruda, o valor estara guardado em seguranęa no registrador muito 
antcs que o valor (agora incorreto) que esta sendo colocado no barramento B (ou H) possa alcanęar a ULA. 

Fazer esse esquema funcionar requer rigida temporizaęao, um ciclo de relógio longo, um tempo mrnimo de 
propagaęao pela ULA conhecido e uma carga rapida dos registradores pelo barramento C. Contudo, com cuidado- 
sa engenharia, o caminho de dados pode ser projetado de modo que funcione corretamente o tempo todo. Na ver- 
dade, as miiquinas reais funcionam desse modo. 

Um modo um pouco diferente de ver o ciclo de caminho de dados e imagina-lo fragmentado em subciclos 
implfcitos. O infcio do subciclo I e acionado pela horda descendente do relógio. As atividades que ocorrem duran- 
te os subciclos sao mostradas a seguiT. junto com os comprimentos dos subciclos (entre parenteses). 

1. Os sinais de controle siio ajustados (A w). 

2 . Os registradores sao carregados no barramento B (Ax). 

3. Operaęao da ULA e deslocador (A y). 

4. Os rcsultados sc propagam ao longo do barramento C de volta aos registradores (Az). 

Na borda ascendente do próximo ciclo de relógio, os rcsultados sao armazenados nos registradores. 

Disscmos quc e melhor imaginar os subciclos como impltcitos. Com isso, queremos dizer que niio ha nenhum 
pulso dc relógio ou outros sinais cxpl(citos que indiqucm a ULA quando operar ou quc digam aos resultados quc 
entrem no barramento C. Na verdade, a ULA e o deslocador funcionam o tempo todo. Contudo, suas entradas sao 
lixo ató um tempo Aw + Ajc após a borda descendente do relógio. Do mesmo modo, suas safdas sito lixo atć que 
Aw + Ar + Ay lenha transcorrido após a borda descendente do relógio. Os unicos sinais explfcitos que comandam 
o caminho dc dados siio a borda descendente do relógio, que inicia o ciclo do caminho de dados, e a borda ascen¬ 
dente do relógio. que carrega os registradores a partir do barramento C. As outras frontciras de subciclos sao deter- 
minadas implicitamente pelos tempos de propagaęao inerentes dos circuitos envolvidos. Cabe aos engenheiros de 
projeto garantir que o tempo Aiv + A-r + Av + Az venha sufieieniemente antcs da borda ascendente do relógio para 
fazer com que o registrador carregue trabalho o tempo todo. 

Operaęao de memória 

Nossa maquina tern dois modos diferentes dc se comunicar com a memória: uma porta de memória de 32 bits 
cndcreęavel por palavra e uma porta de memória de 8 bits endereęavcl por bytes. A porta de 32 bits e controlada 
por dois registradores, MAR (Memory Address Register — registrador de endereęo de memória) c MDR 
(Memory Data Register — registrador de dados de memória). como mosira a Figura 4.1. A porta de 8 bits e 
controlada por um registrador. PC, que le 1 byte para os 8 bits de ordem baixa do MBR. Essa porta (MBR) só pode 
ler dados da memória; nao pode escrever dados para a memória. 

Cada um desses registradores (c todos os outros registradores na Figura 4.1) e comandado por um ou dois sinais 
de controle. Uma seta ciura sob um registrador indica um sinal de controle quc habilitu a saida do registrador para o 
barramento B. Visu> que MAR nao tem concxao com o barramento B. nao tern sinal de habilitaęao. H tambem nao 
lem sinal de habilitaęao porquc esta sempre habilitado. por ser a unica entrada esquerda possfvel da ULA. 

Uma seta negra sob um registrador indica um sinal de controle que escrcve (isto e, carrcga) o registrador a par¬ 
tir do barramento C. Uma vez que MBR nao pode ser carrcgado a partir do barramento C. nao tem um sinal dc escri- 
tu (embora tenhu dois outros sinuis de habilitaęao dcscritos mais adianle). Para iniciar uma leitura ou escrita da 
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Figura 4.3 
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Barramemo de endereęo de 32 bits (comagem em bytes) 


memória, os registradores dc memória adcquados devcm ser carregados e em seguida dcvc ser emitido urn sinal de 
leitura ou cscrila para a memória (nao mosirado na Figura 4.1). 

MAR contćm endereęos de palavrus. de modo quc os valores 0, I, 2 etc. se referem a palavras consccutivas. 
PC contćm endercęns de bytes. portanto os valores 0. 1, 2 cle. se relcrcm a bytes eonsecutivos. Assim. colocar um 
2 cm PC e iniciar urna leitura de memória lerd o byte 2 da memória e o colocani nos 8 bits de ordcm baixa do MBR. 
Colocar 2 cm MAR e iniciar urna leitura de memória leni os bytes 8-11 (isto ć, paluvra 2) da memória e os coloca- 
ra em MDR. 

Essa di Ferenca de funcionalidade e necessaria porque MAR e PC serdo usados para rcferenciar duas partes dife- 
rentes da memória. A necessidade dessa distineao Ikara mais clara adiante. Por enquanlo, basta dizer quc a combi- 
naęao MAR/MOR e usada para ler e escrcvcr palavras dc dados de ntvel ISA e a combinaęao PC/MBR e usada para 
ler o prograina executdvel de mveł ISA. que consiste cm urna seqtienciu de bytes. Todos os outros registradores que 
contćm endereęos usara endereęo dc palavras, como o MAR. 

Na implemcntaęao lisica propriamente dita. ha apenas u ma memória real que funciona com bytes. Permitir que 
MAR conte paJavras (isso ć neccssario por causa do modo como a JVM ć definida) enquanto a memória lisica conta 
bytes depende de um estratagema simples. Quando o MAR ć colocado no barramento de endereęo. scus 32 bits nao 
sao mapcados diretamente para as 32 tinhas de endereęo, 0 - 31. Em vez disso, o bit 0 do MAR e ligado 3 linha 2 
do barTomcnto de endereęo. o bit l do MAR ć ligado a linha 3 do barramento dc endereęo e assim por diante. Os 2 
bits superiores do MAR sao descartados. visto quc só sao ncccssarios para endereęos dc palavra acima de 2 32 , 
nenhura dos quais e legał para nossa miiquina dc 4 GB. Usando esse mapeamento. quando MAR e 1, o endereęo 4 
e colocado no barramento; quando MAR e 2. o endereęo 8 e colocado no barramento c assim por diante. Esse estra¬ 
tagema csui ilustrado na Figura 4.3. 

Como ja mcncionamos, dados lidos da memória por urna porta dc memória de 8 bits sao devolvidos cm MBR, 
um negistrador de 8 bits. MBR pode ser copiado (gated) para o barramento B por um entre dois modos: com sinal 
ou sem sinal. Quando ć preciso o valor sem sinal. a paiavra de 32 bits colocada no barramento B contęm o valor 
MBR nos 8 bits de ordem baixa c zeros nos 24 bits superiores. Valores sem sinal sao uteis para indcxar em urna tabe¬ 
la ou quando um inteiro dc 16 bits tern de ser monlado a partu de 2 bytes consccutivos (sem sinal) na seqiiencia de 
instruęao. 

A outra opęao para converter o MBR de 8 bits em urna palavra dc 32 bits ć trata-lo como um valor com sinal 
entre -128 e F127 e usar esse valor para gerar urna palavra dc 32 bits com o mesmo valor numerico. Essa conver- 
sao ć feita duplicando o bit de sinal MBR (o bit mais a csqucrda) nas 24 posięóes superiores dc bits do barramento 
B, um processo denomtnado extensao de sinal. Quando essa opęao d escolhido. os 24 biu> superiores serao todos 
Os ou todos Is. dependendo de o bit mais a csquerda do MBR dc 8 bits ser um 0 ou um 1. 

A opęao de converter o MBR de 8 bits em um valor de 32 bits com sinal ou sem sinal no barramento B e deter- 
minada por quai dos dois sinais de conimle (setas clarus sob MBR na Figura 4.1) for ativado. A necessidade dessas 
duas opęócs ć a razao de haver duas setas presenlcs. A capacidade dc fa/er com que o MBR de 8 bits aja como uma 
fonie de 32 bits para o barramento B e indicada pelo retangulo traccjado na ligura. 

4.1.2 Microinstruęóes 

Para controlar o caminho de dados da Figura 4.1 precisamos de 29 sinais. quc pudem ser divididos cm cinco 
grupos funcionais, como dcscrcveremos a seguir. 

9 sinais para controlar escrita de dados do barTamcnto C para registradores. 

9 sinais para controlar habililaęao de registradores dirigidos ao harramento B para enlrada de ULA. 

8 sinais para controlar as funęóes da ULA e do deslocador. 

2 sinais Inao mostrados) para indicar Icitura/cscrita na memória via MAR/MDR. 

I sinal (nao mostrado) para indicar busca na memória viu PC/MBR. 

Os valores desses 29 sinais dc controle especilicam as operaęóes para um ciclo do caminho de dados. Um ciclo 
consiste cm copiar vaiores dos registradores para o barramento B. propagar os sinais pela ULA e pelo deslocador. diri- 
gi-los ao barramento C e, linalmente, cscreveros resultados no registradorou registradores adequados. Alem disso. 
se um sinal de leitura de dados du memória for ativado, u operaęao de memória ć iniciuda no finał do ciclo de cami¬ 
nho de dados. após o MAR ter sido carregado. Os dados da memória estao disponiveis no finał do ciclo seguinte 
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em MBR ou MDR c podcm ser usados no ciclo que vem depais daąuele. Em oulras palavras. uma leilura de mcmó- 
ria em qualqucr porta iniciada no finał do ciclo k entrega dados qnc nao |x>dcm ser usados no ciclo k + 1. porćm 
somente no ciclo k + 2 ou mais tarde. 

Esse comportamcnto aparentcmenlc antiintuitivo e explicado pcla Figura 4.2. Os sinais dc controlc da memó- 
ria nao sao gerados no ciclo de relógio l atć que MAR e PC sejam carregados na horda ascendcntc do relógio. pró- 
ximo ao finał do ciclo dc relógio I. Considentremos que a memória coloca seus rcsultados nos bamunentos dc 
inemória dentro de urn ciclo. portanto, que MBR e/ou MDR podcm ser carregados na próxima horda asccndente do 
relógio. junto com os outros registradores. 

Em outras palavras. carregamos MAR no finał dc um ciclo dc caminho de dados c iniciaiuos a memória logo 
após. Por conseqiiencia, na realidade nao podcmos esperar que os resultados dc uma operacao dc leitura esteja cm 
MDR no inicio do próximo ciclo. em especial sc a largura do pulso dc relógio for curta. Nao lid tempo suficientc se 
a memória demora um ciclo de relógio. Um ciclo dc caminho de dados deve ser interposto entre o inicio de uma 
leitura de memória e a utilizaęao do resultado. E claro que outras operaęócs podcm ser executadas durante aquelc 
ciclo. mas nao as que necessitam da palavra de memória. 

Supor que a memória leva um ciclo para operur equivalc a supor que a taxa dc presenęa na cache de nivcl 1 e 
lOO^f. Essa suposięao nunca e verdadcira. mas a complcxidade introduzida por um tempo de ciclo de memória dc 
duraęao variavcl ć mais do que o quc qucremos discutir aqui. 

Uma vez quc MBR e MDR sao carregados na horda ascendenlc do relógio. junto com todos os outros registra¬ 
dores. eles podcm ser lidos durante ciclos cm quc esta sondo realizadu uma nova leitura dc memória. Eles retomam 
aos valores antigos. ja que a leitura ainda nao teve tempo dc sobrescrevć-los. Aqui nao ha nenhumu amhigiiidadc; 
atć quc novos valores sejam carregados cm MBR c MDR na horda asccndente do relógio. os valores precedentes 
ainda estao uli e podcm ser usados. Notę quc ć possfvel fazer leituras seguidas em dois ciclos consecutivos uma vez 
que uma leitura leva apenas 1 ciclo. Alem disso, ambas as memórias podem funcionar ao mesmo tempo. Contudo, 
tentar ler e escrever o mesmo bytc simullancumente da resultados indefinidos. 

Embora talvcz seja dcsejavcl cscrcver a satda no barramento C em mais de um registrador. nunca ć dcscjavel 
habilitar mais dc um registrador por vez no barramento B. Na verdadc. algumas implcmentaęóes rcais sofrerao dano 
ffsico sc isso for fcilo. Com um pequeno aumento no conjunto de circuitos podemos reduzir o mirnero de bits ncces- 
sarios para selecionar entrc as posstveis fontes para comandar o barramento B. Ha somente nove registradores de 
entrada possi veis que podcm comandar o barramento B. c cada versao do MBR com sinal c sem sinal ć contada como 
uma versao individual. Portanto. podcmos codificar as informaęóes do barramento B em 4 bits e usar um dccodifi- 
cador para gerar os 16 sinais dc controlc, setc dos quais nao sao nccessanos. Em projeto comcrcial. os arquitctos 
scriam atacados por um desejo desesperado de se livrar de um dos registradores de modo que 3 bits fizessem o tru- 
balho. Como academicos, podemos nos dar ao enorme luxo de despcrdięar 1 bit para obter um projeto mais limpo 
e mais simplcs. 

Ncsse ponto podetnos controlar o caminho de dados com 9 +4 + 8 + 2+ I =24 sinais. dai 24 bits. Contudo. 
esses 24 bits só controlam o caminho de dados por um ciclo. A segunda parte do controlc ć determinar o quc fazer 
no ciclo seguinte. Para incluir isso no projeto do controlador. criaremos um formato para descrever as operaęóos a 
serem rcalizadas usando os 24 bits dc controle mais dois campos adicionais: o campo NEXT_ADDRESS c o campo 
JAM. O conteudo de cada um desses campos sera discutido cm brevc. A Figura 4.4 mostra um formato possfvcl. 
dividido cm seis grupos c conteudo os seguintes 36 sinais: 

Addr - Contćm o endereęo de uma potcncial microinstruęao seguinte. 

JAM - Determina como a pokima microinstruęao ć selecionada. 

ULA - Funęócs da ULA e do dcslocador. 

C - Sclcciona quais registradores s3o escritos a partir do bairamento C. 

Mem - Funęócs de memória. 

B Sclcciona a fonto do barramento B: ć codificado como mostrado. 

A ordcm dos grupos e. cm principio, arbitraria. embora na verdade a tenhamos cscolhido com muito cuidado 
para miniuiizar cruzamcntos dc linhas nu Figura 4.5. Cruzamcntos de linhas cm diagramus csqucmaticos como a 
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4.1.3 Controle de microinstnięao: a Mic-1 

Atć aqui dcscrcvcmos como o caminho de dados e cuntroiado, mas ainda nao descrevemos como e dccidido 
qual dos sinais de controle deve .ser habilitado em cada ciclo. Isso e dcterminado por urn seqiienciador. que e res- 
ponsavcl por cscalonar a sequencia de opcraęóes necessłirias para a cxecuęao de urna unica instruęao ISA. 

O seqiienciudor dcvc produzir dois lipos de informaęao a cada ciclo: 


Figura 4.5 costumam corresponder u cruzunienlo de fios em chips, o quc causa problcmas em projctos bidimcnsio- 
nais. portanto ć melhor minimiza-los. 


O estado de cada sina] dc controle no sistcma. 

O cndcrcęo da microinstnięao que deve ser exccutada em scguida. 


A Figura 4.5 e um diagramu de blocos detalhado da microurquitctura compleui de nossa maquina de excmplo, 
quc denominarcmos Mic-1. Ela pode pareeor imponentc dc infcio. mas va!c a pena esluda-la com cuidado. Quando 
voce entender totulmente cada rctangulo e cada linha dessa liguru, leni uvunęado bastantc no entendimenlo do nfvel 
de micn)arquiletura. O diagramu de blocos tern duas parłeś: o caminho dc dados, 1 osquerda. que ja discutimos deta- 
Ihudamente. e a scęao dc controle. a direita que estudarcmos agora. 

O mauir iicm e tumbein o mais importante na parte do controle da mdquina e urna inemória denominada urma- 
/.enaniento cle controle. E conveniente imagind-lo como unia memória que contćm o microprograma complcto, 
embora as vezes cle seja implemenlado como um conjunto de portas lógicas. Em geral, vamos nos referir a cle como 
o urmazenainento de controle para cvilur confusao com a memória principal, ucessada por mcio de MBR e MOR. 
Contudo. cm termos tuncionais, o armazenamento dc controle 6 unia memória que simplcsmente contem mieroins- 
truęócs em vez de instruęóes ISA. No caso da nossa mdquinu de excmplo, ele contćm 512 palavras. cada urna con- 
sistindo em urna microinstnięao de 36 bits do tipo ilustrado na Figura 4.4. Na vcrdadc. nem todas essas palavras 
siło necessarias. mas (por razóes quc explicarcmos em brevc) precisamos dc endercęos para 512 palavras distintas. 

Em um aspecto importante o armazenamento de controle ć bem dilerente da memória principal: instruęóes na 
memória principal sao sempre execuladas em ordem dc cndcrcęo (exceto para os desvios); microinstruęóes nao sao. 
O ato dc incrcmentar o contador de programu na Figura 2.3 expressa o fato de que a instruęao padrao ( dtfauli) a 
cxecutar apos a instruęao corrente ć a instnięao seguinte a instruęao corrente na memória. Microprogranias preci- 
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sam de mais flexihilidade (porque as seqiićncias de microinstruęóes tendcm a ser curtas), portanto nilo costumam 
ter essa propriedade. Em vez disso, cada microinstruęao especifica explicitamente sua sucessoru. 

Uma vez quc cm termos funcionais o armazcnamcnto de controle e uma mcmória (só de leitura), .de precisa 
de scu próprio registrador de endereęo de memória c de seu próprio registrador de dados dc memória. Nao precisa 
ler nem escrcver sinais porquc e lido continuamcntc. Denoininaremos o registrador de endereęo de memória do 
armazenamento de controle MEC (MicroProgram Counter— eontador de micrnprograma). Esse nomc e iró- 
nico. uma vcz quc as localizaęóes nelc sao explicilamente nao ordenadas. portanto o conceito de contagem nao i5 
litil (mas quem somos nos para lutar contra a tradięao?). O registrador dc dados de memória e dcnominado MIR 
i Microlnstruction Register — registrador de microinstruęao). Sua funęao ó conter a microinstruęao corrente. 
cujos bits comandam os sinais dc controle quc operam o caminho dc dados. 

O registrador MIR na Figura 4.5 contćm os mesmos seis grupos da Figura 4.4. Os grupos Addr c J (de JAM) 
controlam a selcęao da microinstruęao seguinte e serao discutidos cm breve. O grupo ULA contem os 8 bits que sele- 
cionam a funęao ULA e comandam o dcslocador. Os bits C fazem com quc os registradores individuais carrcguem 
a saida da ULA vinda do burramento C. Os bits M controlam operaęóes de memória. 

Por fim. os ultimos 4 bits comandam o dccoditicador quc determina o que entra no burramento B. Nesse caso 
prcicrimos usar um dccoditicador padrao 4 para Ib. mesmo que sejam requeridas apenas nove possibilidades. Em 
um projeto mais aftnado poderia ser usado um dccoditicador 4 para 9. Nesse caso, o cotnpromisso ć usar um cir- 
cuito padrao quc possa ser encontrado cm uma biblioteca de circuitos cm vez de projetar um circuilo fabricado soh 
espccificaęao. Usar o circuilo padrao ć mais simplcs c a probabilidade dc introduzir bugs e menor. Cunstruir seu 
próprio circuilo usa menos dren de chip mas !cva mais tempo para projetar e ha sempre a possibilidade dc voce errar. 

A operaęao da Figura 4.5 ć a seguinte. No infcio de cada ciclo de relógio (a borda dcscendenlc do relógio na 
Figura 4.2), MIR ć carrcgado a partir da pulavra no annazenamento de controle apontada pelo MPC. O tempo de carga 
do MIR ć indicado na figura por Aw. Se pensunnos cm termos de subciclos, MIR e carregado durante o priineiro. 

Assim que a microinstruęao e cstabclccida em MIR. os varios sinais sc propagam para dentro do caminho dc 
dados. Um registrador e copiado para o burramento B, a ULA sabe qual operaęao realizar e a atividadc ć freneti- 
ca. Esse e o segundo subcicio. Após um intervalo Aw + Ax a partir do infcio do ciclo, as entradas da ULA estao 
estdveis. 

Após um outro A y tudo sc ucom(xia c as safdas da ULA, N. Z. c do deslocador estao cstdveis. Entao os va!o- 
res N e Z sao salvos em um par de flip-flops de I bit Esses bits, como todos os registradores que sao carrcgudos a 
partir do barramento C e na memória. siio sa!vos na borda ascendente do relógio, próximo ao finał do ciclo do cami¬ 
nho dc dados. A salda da ULA nao e serial i zada, mas apenas alimentada no deslocador. A alividade da ULA e do 
dcslocador ocorre durante o subcicio 3. 

Após um intcmlo adicional. A:, a salda do deslocador alcanęou os registradores via barramento C. Entao os 
registradores podem ser carrcgudos perto do finał do ciclo (na borda ascendente do pulso dc relógio na Figura 4.2). 
O subcicio 4 consiste em carrcgar os registradores e flip-flops N c Z e terminu um poueo após a borda ascendente 
do relógio. quando todos os resultados foram salvos e os reśultados das operaęóes dc memória anteriores cstAo dis- 
ponfveis e o MPC foi carregado. Esse proccsso continua atć que alguem se entedie e dcsliguc a maquina. 

Em paralelo com o comando do caminho dc dados, o microprograma tern de determinar qual microinstruęao 
cxccutar em seguida, porque clas precisam ser exccutadas na ordcm em que apareccm no aimazenumento de con¬ 
trole, O ctilculo do endereęo da próxima microinstruęao comeęa após MIR ter sido carregado e estnr estavel. 
Primciro, o carnpo NEXT_ADDRESS de 9 bits e copiado para MPC. Enquanto essa cópia esta ocorrcndo. o campo 
JAM e inspecionudo. Sc tiver volor 000, nada mais e fcito: quando a cópia de NEXT_ADDRESS cstivcr conclufda, o 
MPC apontani a próxima microinstruęao. 

Se um nu mais dos bits JAM for I, i prcciso mais trabalho. Se JAMN cstivcr ativado. o fiip-flop N dc 1 bit sofre 
uma operaęao OR com o bit de ordcm alta do MPC. Dc modo semclhunic, se JAMZ estivcr ativado, e o flip-flop Z 
de I bit que passa pela operaęao OR. Se umbos estivcrcm ajustados. ambos passom por OR. A razao por quc os tlip- 
flops N e Z sao necessarios ć que, após a borda ascendente do relógio (enquanlo o relógio estii alto), o barramento 
B nilo estii mais sondo comandado. portanto as saidas da ULA nao podem mais ser tomadas como corretas. Salvar 
os llugs de estudo da ULA cm N e Z tumu os vulores corretos disponiveis e esttiveis para o calculo do MPC. sem 
importar o que esteja ocorrcndo na ULA. 

Na Figura 4.5. u lógica quc faz esse calculo ć denominada ‘bil alto'. A funęao hoolcuna que ela calcula e 

F= (JAMZ AND Z) OR (JAMN AND N) OR NEXT ADDRESS[8| 

Notę que, cm todos as casos, MPC só pode assumir um de dois valores possiveis: 

1 . O valor de NEXT ADDRESS. 

2 . O valor de NEXT_ ADDRESS com o bit de ordem alta que passa por uma operaęao OR com I. 

Nao existe nenhumu outra possibilidade. Se o bit de ordcm alta dc NEXT ADDRESS ja for 1, usar JAMN ou 
JAMZ nao tem sentido. 

Notę que. quundo os bits JAM sao todos zeros. o endereęo da próxima microinstruęao a ser excculada ć 
simplcsmente o mimero de 9 bits cm seu campo NEXT_ADDRESS. Quando ou JAMN ou JAMZ e 1. ha dois suces- 
sores potenciais: NEX"FADDRESS e NEXT_ADDRESS com operaęao OR com 0x100. considerando que 
NEXT ADDRESS s 0xFF. (Notę quc ()x indica que o numeru quc vem cm seguida esta em hexadccimal.) Esse 
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Hndereęo Addr JAM Bits de controle do caminho de dados 
0x75 

Figura 4.6 

Microinstruęao com JAMZ 
ajustado para 1 tem duas 0x92 

sucessoras potenciais. 

0x192 

ponto 6 ilustrado na Figura 4.6. A microinstruęao corrente, na localizaęao 0x75, tcm NEXT_ADDRESS = 0x92 e 
JAMZ ajustado para l. Por couseqilencia, o próximo endereęo da microinstruęao dependc do bit Z armazenado 
durantc a operaęao dc ULA anlerior. Sc o bit Z lor 0, a próxima microinstruęao vem dc 0x92. Sc o bit Z for I, 
a próxima microinstruęao vem de 0x192. 

O terceiro bit no campo JAM e JMPC. Se ele estivcr ativado, os 8 bits MBR passam por urna operaęao OR bit 
a bit com os 8 bits de ordem baixa do campo NEXT_ADDRESS que vem da microinstruęao corrente. O resultado e 
enviado a MPC. O retangulo com o rótulo ‘O’ na Figura4.5 faz urna OR de MBR com NEXT.ADDRESS se JMPC for 
I, mas apenas passa NEXT ADDRESS diretamcntc para MPC se JMPC for 0. Quando JMPC <5 I, os 8 bits de ordem 
baixa de NEXT ADDRESS normalmente sao zero. O bit de ordem alta pode ser 0 ou 1, portanto o valor de NEXT_- 
ADDRESS usado com JMPC normalmente e 0x000 ou 0x100. A razao para usar as vezes 0x000 e as vezes 0x100 
seni discutida mais adiante. 

A capacidade de efctuar OR enlre MBR e NEXT .ADDRESS e armazenar o resultado em MPC permite urna 
implementaęao eliciente de um desvio multivias (jtrnp). Notę que quaisqucr dos 256 endercęos pode ser cspecifi- 
cado, determinado exc!usivamente pelos bits prcsentes em MBR. Em urna utilizaęao tfpica, MBR conićm um opco- 
de, portanto a utilizaęao de JMPC resultara em urna seleęao unica para a pnkirna microinstruęao a ser executada 
para todo opcode possfvel. Esse metodo e uli! para fazcr desvios rapidos diretamente para a funęao corresponden- 
te ao opcode que acabou de ser buscado. 

Entender a teinporizaęao da maąuina e critico para o que vem a seguir. portanto, talvez valha a pena rcpeti-lu. 
Farcmos isso em termos de subciclos, urna vez quc e facil de visualizar, mas os unicos evcntos de relógio reais sao 
a borda dcscendente, quc inicia o ciclo, e u borda asccndente. que carrega os rcgisłradores e os flip-flops N e Z. Favor 
se referir a Figura 4.2 mais urna vcz. 

Dumnie o subciclo 1, iniciado pela borda descendente do relógio, MIR ć carrcgado a partir do endereęo conti- 
do em MPC no instanie em questSo. Durante o subciclo 2, os sinnis de MIR se propagam e o bamunento B e carre- 
gado a partir do registrador selccionado. Durante o subciclo 3, a ULA c o deslocador funcionam e pruduzem um 
resultado estiWcl. Durante o subciclo 4, os valores do barramento C, dos barramentos de raemória e da ULA tor-’ 
nam-se estiiveis. Na borda ascendente do relógio, os registradores sao carregados a partir do barramento C, flip- 
tlops N e Z sao carregados c MBR e MOR obtem seus rcsultados da operaęao dc memoria iniciada no linal do ciclo 
dc caminlio de dados anterior (se houver algum). 

Tao logo o valor de MBR esteja disponfvel, MPC e carregado em preparaęao para a próxima microinstruęao. 
Assim, MPC obtem seu valor cm algum instantc durante o meio do intcrvalo quando o relógio estd alto. mas após 
MBR/MDR estarem prontos. Ele poderia ser ativado no ntvel (em vez de ativado pela borda) ou ativado pela borda 
com um atraso fixo após a borda ascendente do relógio. O que rcalmcnte importa e que MPC nao seja carregado ate 
que os registradores dos quais ele depende (MBR, N e Z) estejam prontos. Tao logo o relógio caia, MPC pode ende- 
reęar o armazenamento de controle e um novo ciclo pode comeęar. 

Notę que cada ciclo e auto-suficicnte. Ele espeeifica o que ocorre no barramento B. o que a ULA e o desloca¬ 
dor tern de fazer, onde o barramento C dcve ser armazenado e, por firn. quał deve ser o próximo valor de MPC. 

Valc a pena fazer urna observuęao linal sobre a Figura 4.5. Estamos trulando MPC como um registrador pro- 
priamente duo, com 9 bits de capacidade de armazenamento. que e carregado enquunto o relógio esta alto. Na rea- 
iidade. niio hu absolutamcnte nenhumu neccssidadc de haver um registrador uli. Todas as suus entrudas podem ser 
alimentadas diretamente para o armazenamento de controle. Basta que clas estejam presentes no armazenamento dc 
controle na borda dcscendente do relógio quando MIR e selccionado e lido. Na vcrdade. nao hti nenhuma necessi- 
dade de armazcna-las em MPC. Por essa razao. o MPC pode perfeitamente ser implementado como um registrador 
virtual. que e apenas um lugar de reumao para sinais, mais como se fosse um painei de concxao eletrńnico do que 
um registrador real. Transformar o MPC em um registrador virtual simplilica a temporizaęao: agora evcntos acon- 
tecem somentc nas bordas descendentes e ascendentes do relógio e em nenhum outro lugar. Porem, se for mais facil 
para voce imaginar um MPC como um registrador real, esse ponto de vista tambem e valido. 

4.2 Exemplo de ISA: IJVM 

Vamos eondnuar nosso exemplo introduzindo o nt'vel ISA da maquina a ser interpretado pelo microprograma 
quc e executado na microurquitctura da Figura 4.5 (1JVM). Por convcniencia, as vczes vamos nos referir ii 




Instruction Set Architecture (ISA) como a macroarquiteturu. para contrasta-la com a microarquitetura Contudo. 
antes de descrever IJVM, vamos fa/er uma ligcira digressao com o intuito de motivaę3o. 

4.2.1 Pilhas 

Pralicamente todas as linguagens de programaę3o suportam o conceilo de proccdimenlos (mćtodos), que tern 
varitiveis locais. Essas variaveis pudem ser acessadas de dentro dos procedimentos. mas deixum dc ser accssiveis 
assini que o procedimento ć devolvido. Portanto surge a pergunta: “Em que lugar da memória essas vari3veis devcm 
ser mantidas?”. 

A soluęSo mais simples, dar a cada varidvel um endcreęo dc memória absoluto, nao funciuna. O prublcma 
e quc um procedimento pode chamar u si mesmo. Estudarcmos esses procedimentos rccursivos no Capitulo 5. 
Por enquanto, basta dizer que. sc um procedimento for ativado — isto ć, chamado — duas ve/.es, ć impossivel 
annazenar suas varidvcis em localizaęóes absolutas de memória porque a segunda invocaęao interferira com a 
primeira. 

Em vez disso, <5 usada uma estratćgia diferente. Uma drea da memória. denominada pilha. <f rcservada para 
variaveis. mas variavcis individuais nao obtem endercęos absolutos na memória. Em vez disso, um registrador, 
por excmplo, LV, ć ajustado paru apontar para a base das varidvcis locais para o procedimento em qucstiio. Na 
Figura 4.7(a). um procedimento A, quc tern variaveis locais al, u2 c a3, foi chamado, portanto fol rcservado 
armazenamento para suas varidvcis locais comeęando na localizaęao dc memória apontada por LV. Um outro 
registrador. SP. aponu a palavra mais alta das variaveis locais dc A. Se LV tor 100 e as palavras forem de 4 
bytes, entao SP serd 108. Variaveis sao retcrcnciadas dando seu deslocamcnto (distancia) em relaęao a LV. A 
estrutura dc dados entre LV c SP (c incluindo ambas as palavras apontadas) e denominada quadro de variaveis 
locais dc A. 

Agora vamos considcrar o quc acontece se A chamar um outro procedimento, B. Onde deveriam ser armaze- 
nadas as quatro variaveis locais dc B ( hl. b2. b3, M)'! Resposta: na pilha, em cima das variavcis de A. como mos- 
tra a Figura 4.7(b). Notę que LV foi ajustado pcla chamada dc prtKcdimento para apontar as varidvcis locais de B 
cm vez das dc A. As varidveis locais dc B pudem ser rcfercnciadas dando seu deslocamcnto cm relaęao a LV. De 
modo semelhanic, se B chamar C. LV e SP sao ajustados novamente para alocar cspaęo para as duas variiiveis de C. 
como mostra a Figura 4.7(c). 

Quando C retoma, B loma-se ativo novamcnte e a pilha volta u ser ajustada para a Figura 4.7(b) de modo que 
LV agora aponta novamcntc para as variavcis locais dc B. Da mesma forma. quando B retoma, voltamos ii situaęao 
da Figura 4.7(a). Sob todas as condięóes. LV aponta para a basc do quadro da pilha para o procedimento utivo no 
momento em qucstao c SP aponta para o topo do quailro da pilha. 

Agora suponha quc A chama D, quc tern cinco varidveis locais. Essa e a situaęao da Figura 4.7(d), na qual as 
varidveis locais de D usam a mesma memória que as de B usaram, bem como parte das de C. Com essa organiza- 
ęao de memória. a incmória só ć alocada para procedimentos que estao ativos no momentu em qucstao. Quando um 
procedimento retoma, a memória usada por suas varidveis locais e libcrada. 

Pilhas ićm outra utilizaędo aleni de contcr varidveis locais. Elas pudem ser usadas para reter operandos duran- 
te o cdlculo de uma cxpressao aritmćtica. Quando usada dessa maneira. u pilha e denominada pilha de operandos. 
Suponha, por exemplo, quc, antes de chamar B, A tenha dc calcular 

al = a2 + a3; 

Um modo dc efetuar essa suma ć passar a2 para u pilha. como mostra a Figura 4.8(a). Ncssc caso, SP foi 
inerementado pelo mimem de bytes cm uma palavra. por excmplo. 4, e o primeiro operando foi armazenado no 
endcrcęo agora apontado por SP. Em seguida. a3 e passada para a pilha. como mostra a Figura 4.8(b). A pro- 
pósiio da notaęao, usarcmos o lipo de fontc Hclvctica para todos os fragmentos de programa. como fizemos 
antcriormcnie. Tambem usarcmos essa lónte para opcodes cm linguagem de montagem c rcgistradores de 
maquina. mas em texto correntc. variavcis e procedimentos de programas serao dados em ItdłU o. A diferenęa 
e quc nomes de variaveis e programas s3o escolhidos pelo usiiario: nomes de opcodes e regisinulorcs vem com 
a nuiquina. 

Agora, o calculo propriamcnic dilo pode ser feito executando uma instruęao que retira duas palavr.is da pilha, 
suma as duas e devolve o rcsullado para a pilha. como mostra a Figura 4.8(c). Por itm. a palavra quc esta no lupo 
pode ser retirada da pilha e armazenada novamente em variavcl local ul. como ilustrado na Figura 4.8(d). 
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Os ąuadros de variaveis locais e as pilhas de operandos podem ser misturados. Por exemplo. ao ealcular uma 
exprcssao como v’ + f(x), pane dela (por exemplo. v : ) pode esiar em uma pilha dc operandos ąuando a funęao/e 
ehamada. O resullado da funęao i deixado na pilha. em cima de .r, de modo que a próxima instruęao pode somd-la. 

Vale a pena observar que, enquanto todas as maąuinas usam uma pilha para armazenar varidveis locais. nem 
lodas usam uma pilha de operandos como cssa para efctuar arilmetica. Na verdadc, a maioria delas nao usa. mas a 
JVM e a IJVM irabalham assim. e e por isso que aprcsentamos opcraęóes eom pilhas aqui. Vamos estudd-las com 
mais detalhes no Capllulo 5. 

4.2.2 Modelo de memória IJVM 

Agora estamos prontos para estudar a arquitelura da IJVM. Basicamentc. cla consiste em uma memória que 
pode ser vista dc dois modos: um arranjo dc 4.294.967.296 bytes (4 GB) ou um arranjo de 1.073.741.824 palavras, 
cada uma consisiindo em 4 bytes. Diferente da maioria das lSAs, a Javu Virtual Machinę (miiquina virtual Java) nao 
deixa nenhutn endereęo absoluto de memória diretamente vislvel no nlvel ISA, mas ha varios endereęos impllcitos 
quc fomcccm a base para um ponteiro. Instruęóes U VM só podem acessar memória indexando a partir desses pon- 
tciros. F.m qualqucr instante. as seguintes areas dc memória siło detinidas: 

1. O cnnjunla de constantes. Essa drca nao pode ser cscrita por um programu LfVM e consiste em constan- 
les, cadeias e ponteiros para outras areas da memória que podem ser refereneiadas. Ele e carrcgado quan- 
do o programu e trazido para a memória e ndo ć altcrado depois. Hd um registrador implicito, CPP, quc 
contem o endereęo da primeira palavra do conjunlo de constantes. 

2 . O ąuadro de varidveis locais. Para cada invocaędo de um metodo <5 alocada uma drca para armazenar 
variaveis durante o tempo dc vida da invocaęao, denominada ąuadro de variaveis locais. No inicio desse 
ąuadro estao os parametros (tambćm denominados argumentos) com os quais o metodo foi invocado. O 
ąuadro de variaveis locais nao inclui a pilha de operandos, que e separada. Contudo, por razóes de cficifin- 
cia, nossa implementaęao prefere implemcntar a pilha dc operandos imediaiamcntc acima do ąuadro de 
variavcis locais. Ha um registrador implicito que contem o endereęo da primeira localizaęao do ąuadro dc 
variłivcis locais. Denominaremos csse registrador LV. Os parametros passados na invocaęao do metodo sao 
armazenados no inicio do ąuadro de variiivęis locais. 

3. .4 pilha de operandos. E garantido que o ąuadro tuto exceda um certo tamanho. calculado com anlcccden- 
ciu pelo compiludor Java. O cspaęo da pilha dc uperandos ć ulocado diretamente acima do ąuudro de vurid- 
veis locais. como ilustrado na Figura 4.9. Em nossa implcmenlaęiio, e convcnicnte imaginar a pilha dc ope¬ 
randos como parte do ąuadro de variaveis locais. De ąuuląucr modo, hd um registrador implicito que 
contem o endereęo da palavra do topo da pilha. Notę que. diferente do CPP e do LV. esse ponteiro. SP, muda 
durante a execuęuo do metodo it medida que operandos sdo passados para u pilha ou retirudos dela. 

4. A drea de metodo. Por lim, ha uma regiao da memória ąue contem o programu, il ąual nos referimos como 
a tirea de 'texto' em um processo UNIX. Hd um registrador implicito ąue contóm o endereęo da instruęao 
a ser buscada cm seguida. Esse ponteiro i denominado contudor de programu (Program Countcr) ou PC. 
Diferente das outras rcgióes da memória. a drca de metodo e tratada como um arranjo dc bytes. 









£ prcciso esclarccer uma quesl5o em rclaęao a pontciros. Os registradores CPP. LV e SP san todos pontciros 
para palavras. niio para bytes. c sao dcslocados pclo mimero dc palavras. Para o suhconjunto de intcin>s que csco- 
ihemos, todas as rcfcrencias a itcns no conjunto dc constantes. o quadro dc variavcis locais c as pilhas sao palavras. 
e todos os deslocamcntos usados para indcxar esscs quadros s5o deslocamentos de palavras. Por exemplo, LV, LV + 
1 e LV + 2 sc refercm as primciras tres palavras do quadro dc varidveis locais. Em comparuęao, LV, LV + 4 e LV + 8 
se refercm a palavras em intervalos de quatro palavnis (16 bytes). 

Ao conlrario, PC conićm um cndcrcęo de bytc. c uma adięao ou subtraędo ao PC altera o endercęo por um 
mimero de bytes. c nao ptsr um numeru de palavras. Endereęamento para PC e diferente dos outros e esse futo e apa- 
rente na porta de memória especial fomecida para PC na Mic-1. Lembrc-se de que a larguru dessa porta e de ape- 
nas I bytc. Inercmentar o PC por um fator de um e iniciar uma leitura resulta cm uma busca do próximo byte. 
Incrcmentar o SP de um fator de um c iniciar uma leitura resulta em uma busca da praxima paluvra. 

4 .2.3 Conjunto de instruęóes da IJVM 

0 conjunto dc instruęóes da IJ VM e mostrado na Tabela 4.2. Cada instruęao consiste cm um opcodc e is ve7.es 
um operando. tal como um deslocamento dc memória ou uma constantc. A primeira coluna du a codificaęao hcxa- 
decimal da instruęao. A segunda dii seu mncmónico em linguagem de montagem. A terccira dd uma brcve descri- 
ęao de seu efeito. 

Sao fomecidas instruęóes pata passar para a pilha uma paluvra quc pode vir de diversas fontes. Entre essas fon- 
tes estao o conjunto dc constantes <LDC_W), o quadro de variiivcis locais (ILOAO) e a prupria instruęao (BtPUSH). 
Lma variavcl tambem pode ser retirada da pilha e arma/enada no quadro de variavcis locais (ISTORE). Duas opera- 
ęóes aritmeticas (IADD e ISUB) bem como duas operuęóes lógicas booleanas (IAND e IOR) prałem ser efeluadas usan- 
do as duas palavrns dc cima da pilha como operandos. Em todas as operaęóes aritmeticas c lógicas. duas pałavras sao 
retiradas da pilha e o resuitado ć devolvido a ela. Siło fomecidas quatro instruęóes de dcsvio, uma incondicional 
(GOTO) e tres condicionais (IFEQ. IFLT c IFJCMPEO). Todas as instruęóes de ramiticaęiio. sc tomadas, ajustam o valor 
dc PC eonforme o tamanho de seus deslocamentos (16 bits com sinal). que vem após o opcode na instruęiło. Esse 
deslocamento e atlicionado ao endereęo do opcode. liii tumbom insiruęóes (JVM para trocar as duas palavras do topo 
da pilha uma pela outra (SWAP). duplicando a palavra do topo(DUP) e relirando-a (POP). 

Algumas instruęóes tom viirios formutos. o quc permitc uma formu abreviada para versóes comumente usadas. 
Em IJVM inclufmos dois dos vdrios mecanismos quc a JVM usa para fazer isso. Em um caso ignoramos a forma 

Tatiaia 4J Conjunto de mstruęóes da LIVM. Os operandos byte, const e vamum sao 1 byte. 

Os operandos disp, index e offset sio 2 bytes. 


Hen j Unemónico Significado 



0x10 

BIPUSH byte 

Carregue o byte para a pilha" 


0x39 

DUP 

Copie a palavra do topo da pilha e passe-a para a pilha 


0xA7 

GOTO offset 

Desvio incondicional 


0x60 

IADD 

Retire duas palavras da pilha; carregue sua soma 


0x7E 

IAND 

Retire duas palavras da pilha; canegue AND booleano 


0x99 

IFEQ offset 

Retire palavra da pilha e desvie se for zero 


0x9B 

1FIT offset 

Retire palavra da pilha e desvie se for menor do que zero 


0x9F 

IF.ICMPEO offset 

Retire duas paiavras da pilha; desvie se iguais 


0x84 

IINC vamum const 

Some uma constante a uma vanavel local 


0x15 

IL0AD vamum 

Carregue variavel local para pilha 


0xB6 

INV0KEVIRTUAL disp 

Invoque um metodo 


0x80 

I0H 

Reare duas palavras da pilha; carregue 0R booieana 


0xAC 

IRETURN 

Retome do metodo com valor inteiro 


0x36 

ISTORE vamum 

Retire palavra da pilha e armazene em variśvel local 


0x64 

ISUB 

Retire duas palavras da pilha; canegue sua diferenęa 


0x13 

LDC_W indcx 

Carregue constante do conjunto de constantes para pilha 


0x00 

N0P 

Nao faęa nada 


0xS7 

POP 

Apague pałam no topo da pilha 


0x5F 

SWAP 

Troąue as duas palavras do topo da pilha uma pela outra 


0xC4 

W1DE 

Instruęao prefneada; instruęao seguinte tern um indice de 16 bits 
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abreviada em favor da mais geral. Em outro cu.so mostnunos como a instruęao prefixada WIDE pode ser usada para 
modificar a instruęao resultantc. 

Por firn, ha urna instruęao (INVOKEVIRTUAL) para invocar urn outro metodo e urna outra instruęao (IRETURN) 
para sair do metodo e devolver o eontrole ao metodo que a invocou. Devido a eomplexidade do meeanismo, sim- 
plificamos ligeiramente a detlnięao. possibilitando produzir um meeanismo direto para invocar unia ehamada e um 
retomo. A rcstrięao ć que, diferente da Java, só permitiraos que um metodo invoque um metodo existente dentro de 
seu próprio objęto. Essa restriędo prejudiea seriamente a orientacjo dc objetos mas nos pennite apresentar um 
meeanismo tnuito mais simples. evitando o requisito de tocalizar o metodo dinamieamente. Se voce nilo estiver 
familiarizado com programaęao baseada cm objęto, pode ignorar essa observaęao sem susto. O que tizemos toi 
levar Java de volta a urna linguagem nao baseada em objęto, como C ou Pascal. Em todos os computadores, exce- 
to JVM. o endereęo do proeedimento para ehamar e determinado direlamente pela instruęao CALL. portanto nossa 
abordagem e, na verdade, o caso norma!, e nao a exeeę3o. 

O meeanismo para invocar um metodo e o seguinte. Primeiro. o invoeador passa para a pilha uma referencia 
— ponteiro - ao objęto a ser ehamado. Essa referencia nao e neeessaria em IJVM visto que nenhum outro objęto 
pode ser especificado, mas e mantida para preservar a consisteneia com JVM. Na Figura 4.10(a) essa referencia e 
indieada por OBJREF. Em seguida o chamador passa os parametros do mćtodo para a pilha, nesse exemplo. 
Parametro I, Par&meiro 2 e Parametru 3. Finalmente, INVOKEVIRTUAL e exceutada. 

A instruęao INVOKEVIRTUAL inelui um deslocamento que indica a posięao no conjunto de eonstantes que can¬ 
tem o endereęo de infeio denuo da area de metodo para o metodo que esta sendo invocado. Contudo, embora o eddi- 
go do metodo resida na localizaęao apontada por csse ponteiro. os primeiros 4 bytes na area de metodo contćm 
dados especiais. Os dois primeiros bytes sao interpretados como um inteiro dc 16 bits que indica o ntimero de para¬ 
metros para o metodo (os parametros em si ja foram passados para a pilha). Nessa contagem, OBJREF e contado 
como um parametro: parilmetro 0. Esse inteiro dc 16 bits. junto com o vałor de SP, fomece a localizaęao de OBJ¬ 
REF. Notę que LV aponta para OBJREF, e nao para o primeiro parametro rcal. Para onde o LV aponta ć uma esco- 
lha um tanio arbitniria. 

Os dois bytes seguintes na drca de metodo sao interpretados como um outro inteiro de 16 bits que indica o 
tamanho da tirca de variaveis loeais para o metodo quc cstii sendo invocado. Isso e necessdrio porquc uma nova pilha 
sera cstabeleeida para o mćtodo. eomcęando imediatamente acima do quadro de variaveis loeais. Por fim, o quinto 
byte na drca de metodo conlem o primeiro opcode a ser executado. 

A rcal seqUSncia que ocorre para INVOKEVIRTUAL e a seguinte c estd retratada na Figura 4.10. Os dois bytes 
dc fndice sem sinal quc seguent o opcode sao usados para construir um fndice na tabela do conjunto de eonstantes 
(o primeiro byte e o byte dc ordem alta). A instruęao calcula o endereęo da base do novo quadro de variaveis loeais 
subuaindo o numero de purdmetros do ponteiro da pilha e ajustando LV para apontar para OBJREF. 

Nessa localizaęflo. sobrcscrevendo OBJREF, a implementaęao armazena o endereęo da localizaędo onde o unti- 
go PC deve ser annazenado. Esse endereęo ć calculado adicionando o tamanho do quadro de varidvcis loeais (para¬ 
metros + variiivcis loeais) ao endereęo contido em LV. Imediatamente acima do endereęo onde o antigo PC dcve ser 
armazenado estd o endereęo onde o andgo LV deve ser armazenudo. Imediatamente acima daquele endereęo esta o 
inicio da pilha para o proeedimento que aeabou de ser ehamado. O SP e ajustado para apontar para o antigo LV, que 
e o endereęo imediatamente abaixo da primeira localizaęao vazia na pillta. Lembre-se de que o SP semprc aponta 
para a palavra no topu da pillta. Se a pilha estivcr vazia. cle aponta para a primeira localizaęao abaixo do tinul da 
pilha porque nossas pilhas erescem para cima, na dircęao de endcrcęos mais altos. Em nossas figuras as pilhas sem- 
pre erescem para cima, na direęao dos endcrcęos mais altos no topo da pagina. 

A ultima operaęao neeessaria para efetuar INVOKEVIRTUAL ć ajustar PC para apontar para o quinto byte no 
cspaęo de código do metodo. 


Figura 4.10 

|a| Meinóna antes de executar 
INVOKEVIRTUAL. |b| Após 
executa-la. 
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A instruęao IRETURN invcrtc as operaęSes da instruęao INVOKEVIRTUAL, como mostra a Figura 4.11. Ela desa- 
loca o cspaęo usado pclo metodo quc retoma. Tam bom restaura a pilha a seu estado antcrior. excclo quc (1) a palavra 
08JREF (agora sobrescrita) e todos os pariUnetros forum retirados da pilha e (2) o valor retomado foi colocado no topo 
da pilha, na localizaęao antes ocupada por OBJREF. Para restaurar o antigo estado. a instruęao IRETURN deve ser capa/ 
dc restaurar os ponteiros PC e LV para sous antigos valores. Ela faz isso accssando o pontciro de ligaęao (que e a pala- 
vra identilicada pelo pontciro LV conente). Lembrc-se de que nessa localizaęao, onde a OBJREF estava armazenada 
originalmente, a instruęao INVOKEVIRTUAL armazenou o endercęo que aponta para o PC antigo. 

Essa palavra e a palavnt acima dela siło recuperadas para restaurar PC c LV. respectivamentc, para seus valorcs 
antigos. O valor dc rctomo, que estava armazcnado no topo da pilha do metodo que esta cnccrrando, e copiado para 
a localizaęao onde a OBJREF cstava originalmente armazenada, e SP ć restaurado para apontar para essa localizaęao. 
Por conscguinte. o controlc e devolvido a instruęao imediatamente após a instruęao INVOKEVIRTUAL. 

Atć aqui, nossa mdquina niio tern ncnhuma instruęao de entrada/saida. Tampouco vamos adicionar alguma. 
Nossa maquina nao prccisa dcssus instruęóes. nem a Java Virtuai Machinę, e a cspecifkaęao oficial para JVM 
scquer mcnciona E/S. A teoria e que uma maquina que niio efelua entrada nem saida e 'segura'. Na JVM. leitura e 
escrita sao rcalizadas por mcio dc urna chamada a metodos espectais dc E/S. 

4.2.4 Compilando Java para IJVM 

Agora vamos vcr como Java e IJVM estiio rclacionadas uma com a outra. Na Figura 4.12(a) mostramos uin 
Iragniento simples de código Java. Quando alimentado cm um compilador Java, este provavclmente produziria a 
linguagem de montagem IJVM mostrada na Figura 4.12(b). Os ntlmcros de linhas de 1 a 15 a esquerda do progra¬ 
mu de linguagem de montagem nao sao parte da salda do compilador: o mesmo valc para os comentdrios (que come- 
ęam com If). Eles esldo ali para ajudar a explicar a figura subscqiicnte. F.ntao o assembler Juva traduziria o progra- 
ma dc montagem para o proc rama binario mostrado na Figura 4.l2(c). Na vcrdade. o compilador Java faz sua 
própria montagem e produz o programu binario diretnmente. Para esse exemp!o. consideremos que i e a variiivci 
local 1, j 6 a variavcl local 2 c k e u vanavel local 3. 


l=i»k: 
if (I «= 3) 
k = 0: 
else 

l-l-i: 

Figura 4.12 

|a| Fragmento em Java. |b) 

Linguagem de montagem 
Java correspondente. (c| 

Programa UVM em 
hexadeomal. 


(a) 


1 ILOAD | //1 - i - k 

2 ILOAD k 

3 IADD 

4 ISTORE i 

5 ILOAD I II if (I = 3) 

6 BIPUSH 3 

7 IF ICMPEO LI 

8 ILOAD j // j «1 * 1 

9 BIPUSH 1 

10 ISUB 

11 ISTORE | 

12 GOTO L2 

13 LI: BIPUSH0 //k = 0 

14 ISTORE K 

15 L2: 

<b) 


0x15 0x02 
0x15 0x03 
0x60 

0x36 0x01 
0x15 0x01 
0x10 0x03 
0x9F 0x00 0x0D 
0x15 0x02 
0x10 0x01 
0x64 

0x36 0x02 
0xA7 0x00 0x07 
0x10 0x00 
0x36 0x03 

(cl 


i 
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Pilha após cada instruęao da 

Ficnira 4.12lbl. ,— : —, 
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O código compilado ć direto. Primeiro j e k siło passadas para a pilha, somadas. e o resultado e armazcnado 
em Enlao i e a constantc 3 sao passadas para a pilha e comparadas. Se forem iguais, 6 tornado um desvio para LI, 
onde k e ajustada para 0. Se forem diferentes, a eomparaęao falha e o código logo após IF ICMPEO e executado. 
Feito isso, ele desvia para L2, onde as partes then e else se fundem. 

A pilha de operandos para o programa IJVM da Figura 4.12(b) e moslrada na Figura 4.13. Antes de o código 
comeęar a executar a pilha esta vazia, o quc e indicado pela linha horizonlal acima do 0. Após a primeira ILOAD,/ 
esta na pilha, como indicado por j no retiingulo acima de I (o que significa que a instruęao I foi executada). Após 
a segunila ILOAD, duas palavras estao na pilha, como mostrado acima de 2. Após a tADD, ha somente urna palavra 
na pilha, que contóm a soma j +■ k. Quando a palavra do topo e retirada da pilha e armazenada em i, a pilha esti 
vazia, como mostrado acima do 4. 

A instruęao 5 (ILOAD) inicia a dcclaraęao if passando i para a pilha (em 5). Em seguida vem a constante 3 
(em 6). Após a eomparaęao, a pilha estd novamente vazia (7). A instruęao 8 e o irncio da parte else do fragmen- 
to de programa Java. A parte else continua ate a instruęao 12, quando cntao desvia para a parte then e vai para o 
rótulo L2. 

4.3 Exemplo de implementaęao 

Agora que ja especificamos dctalhadamente a microarquitetura c a macroarąuitetura, resta a questao da imple¬ 
mentaęao. Em outras palavras. como e um programa que esta rodando na primeira e interpretando a ultima, e como 
ele funciona? Antes de podermos responder a essas perguntas, devcmos considerar com cuidado a notaęiio que usa- 
remos para descrever a implementaęao. 

4.3.1 Microinstrucóes e notaęao 

Em princfpio, poderfamos descrcver o armazenamento de controle era Iinguagem binaria, 36 bits por palavra. 
Mas era linguagens de programaęao convencionais e um grandę benefTcio introduzir uma notaęao quc transmita a 
essćncia das questóes que precisamos tratar e ao mesmo tempo oculte os detalhes que podem ser ignorados ou que 
podem ser mais hem tralados automuticamente. 

Nesse caso. ć iraportante perccber que a Iinguagem que escolhemos pretcndc ilustrar os conceitos, e nSo faci- 
litar projetos eficientes. Se esse fosse nosso objetivo, usariamos uma notaęiio diferente para tnaximizar a flexibili- 
dade dispon/vel para o projetista. Um aspecto em quc essa questao e import antę e a escolha de endereęos. Uma vez 
que a memória nao e ordenada logicaraente, nao ha nenhuma , pn')xima instruęao - natural a ser subentendida quan- 
do especificamos uma seqtifincia de operaęóes. Grandę parte do poder dessa organizaęao de controle deriva da capa- 
cidade do projetista (ou do programador de montagem) de selecionar endereęos com eficiencia. Portanto. comeęa- 
mos introduzindo uma Iinguagem simbólica simples que da uma descrięao completa de cada operaęao sem explicar 
ęompletamente como todos os endereęos poderiam ter sido determinados. 

Nossa notaęSo especifica todas as atividades que ocorrcm num unico ciclo de reiógio em uma unica linha. Em 
teoria, poderiamos usar uma Iinguagem dc alto nfvcl para dcscrever as operaęóes. Contudo, o controle ciclo por 
ciclo e muito importante porque da a oportunidade de realizar vtirias operaęóes ao mesmo tempo e e necessario quc 
possamos analisar cada ciclo para entender e verificar as operaęóes. Se a meta for uma implementaęao rapida e efi- 
ciente (sc os outros aspectos forem iguais, rdpido c cficicnte e sempre melhorque lento c incficicntc), cntao cada 
ciclo conta. Em uma implementaęao rcal ha muitos estratagemas sutis ocultos no programa. quc usam seqiićncias 
ou operaęóes obscuras para cconomizpr um unico ciclo que seja. Ha uma grando compcnsaęao por economizar 
ciclos: uma instruęao de qualro ciclos que pode ser reduzida de dois ciclos agora sera executada com uma rapidcz 
duas vezes maior — e essa ucclcruęiio e obtida toda vez quc exccutamos a instruęao. 

Uma abordagem possivel e simplcsmentc fazer uma lista dos sinuis que devenam ser ativados a cada ciclo de 
reiógio. Suponha que em um detemiinado ciclo queremos inerementar o valor de SP. Tambem queremos iniciar uma 
operaęao de leitura e queremos que a próxiina instruęao seja a que residc na localizaęao 122 no armazenamento de 
controle. Poderiamos escrever 

ReadRegister -= SP. ALU = INC. WSP, Road, NEXT ADDRESS = 122 

Onde WSP significa ‘escreva o registrador SP. - . Essa notaęao e completa, mas dificil de entender. Em vez disso, 
combinarcmos as operaęóes de modo natural e intuitivo para captar o efeito daquilo que esta aconlecendo: 

SP = SP + 1; rd 






I 


I 

i 


Vamos dar a nossa Micro Assembly Language dc alto nfvcl o nomc MAL' (palavra frunccsa quc significa 
•doenie’, o que com certcza voce ficard se tiver dc escrever muito código utilizundo cssu Iinguugcm). A MAL e laJha- 
da para rcfletir as caracteristicas da microarquitctura. Durantc cada ciclo. qualquer um dos rcgistradorcs pode ser 
escrito. mas o normal e que somcnie um seja escrito. Apcnas um rcgisirador pode ser copiado para o lado B da ULA. 
No lado A, as opęócs sao +1.0. - l, c o registrador H. Assim. podcmos usar urna deelaraęao dc atribuięao simplcs. 
como cm Java, para indicar a opcraęao a ser oxeeutada. Por cxcmplo. para copiar algo de SP para MOR. podcmos 
dizer 

MDR = SP 

Para indicar a utilizaęio das funęócs ULA. exceto passar pclo barramento B. podemos escrever, por exemplo, 

MDR » H + SP 

que adiciona o conteiido do registrador H a SP e escrcve o resultado no MDR. O operador + ć comutativo — 
o quc significa quc a ordcm dos operandos nao importa —. portanto a deelaraęao anterior tambćm pode ser cscrita 
como 

MDR = SP + H 

c gerar a mesma microinstruęao de 36 bits. aindn que. cm termos estritos. H dcve ser o operando csquerdo da ULA. 

Tcmos de tomar o cuidado de usar somentc operaęóes legais. As operaęóes legais mais importantes sao mos- 
tradas na Figura 4.14, na qual SOURCE pode ser qualquer um dos MDR. PC, MBR, MBRU, SP, LV, CPP, TOS ou OPC 
(MBRU implica a vcrsao sem sinal de MBR). Todos esses registradores podem agir como lontcs para a ULA no bar- 
ramenlo B. Dc modo semelhante, DEST pode ser qualquer um dos MAR. MDR. PC. SP. LV. CPP, TOS, OPC ou H; 
todos eles sdo destinos posstvcis para a safda da ULA no barramento C. Essc formato e enganador porque muitas 
declaraęóes aparentemente razoavcis sao ilegais. Por cxemplo. 

MDR = SP + MDR 

parecc perfeitamentc razoavel, mas ndo hu nenhum modo dc exeeuci-la cm um ciclo no caminho de dados da Figura 
4.S. Essa rcslrięao cxiste porquc, para urna adięao (exccto um incrcmcnto ou dccrcmenlo), um dos operandos tern 
de ser o registrador H. Da mesma forma, 

H = H - MDR 

poderia ser util, mas tambćm ela ć impossfvel porąue a unica fonie possivel de um subtraendo — valor que estd 
sendo subtrafdo — ć o registrador H. Cahc ao montador rcjeitar declaraęóes quc pareęam validas mas que, na vcr- 
dade, sao ilegais. 

Ampliamos a notaęao para permitir multiplas alribuięócs pela utilizaęao de miiltiplos sinais de igual. Por 
excmplo. adicionar 1 a SP c armazcna-lo de volta em SP. bem como cscrevfi-lo em MDR, pode ser conseguido por 

SP = MDR = SP + 1 

Para indicar leituras e eseritas de memória de palavras de dados de 4 bytes basta acrescentar rd e wr it microins¬ 
truęao. Buscar um bytc pela porta de I bytc ć indicado por fetch. Atribuięóes e operaęóes de memória podem ocor- 
rer no mesmo ciclo, o que e indicado escrevendo-as na mesma linha. 

Para evitar qualqucr confusao, vamos repetir que a Mic-1 tern dois modos dc acessar memória. Leituras c escri- 
tas de palavras de dados de 4 bytes usam MAR/MDR e sao indicadas nas microinstruęóes por rd e wr, rcspcctivamen- 
tc. Leituras dc opcixles dc I byte a partir da seqilencia dc instruęóes usam PC/MBR e sao indicadas por fetch nas 
microinstruęóes. Ambos os lipos dc operaęóes de memória podem ocorrcr simultaneamentc. 

DEST = H 
DEST = SOURCE 
DEST = H 

Figura 4.14 

tbdas as operaęóes 
permitidas Ouaiąuer unia das 
operaęóes antenores pode ser 
estendida somando *« 8" a 
etas para deslocar o resultado 
para a esąuerda por 1 byte. 

Por exemplo. urna operaęao 
comum e H MBR << 8 


DEST - SOURCE 
DEST sHt SOURCE 
DEST = H + SOURCE * 1 
DEST = H * 1 
DEST = SOURCE - 1 
DEST = SOURCE H ] 
DEST j SOURCE i 
DEST H 

□EST . H AND SOURCE 
DEST . HOR SOURCE 
DEST ■ 0 
DEST . 1 
DEST = -1 


Capitulo 4 Nivel da Microarąuitetura 149 



Oiganizaęao Estruturada de Computadores 150 


Contudo, o mesmo registrador nao pode rcceber um valor da memória e o caminho de dados no mesmo eielo. 
Considerc o código 

MAR = SP; rd 
MDR = H 

O efeito da primeira microinstruęao e atribuir um valor da memória a MDR no finał da scgunda microinstru¬ 
ęao. Conludo, a scgunda microinstruęao tambem alribui um valor a MDR ao mesmo tempo. Essas duas atribuięóes 
estao em confiito e nao s3o permitidas porque os resuJtados sao indefinidos. 

Lembrc-sc de que cuda microinstruęao dcve fomecer explieitamente o endercęo da próxima microinstruęao a 
ser executada. Todavia, ć comum ocorrer que urna microinstruęao seja invocada somente por urna outra microins¬ 
truęao, a saber, por aquela que esta na linha imediatamente acima dela. Para facilitar o trabalho do microprograma- 
dor, o microassembler normalmente atribui um endercęo a cada microinstruęao, nao necessariamente consecutivas 
no armazenamento dc controle, e preenche o próximo campo NEXT_ADDRESS de modo quc microinstruęóes eseri- 
tas cm linhas consecutivas siło executadas consecutivamente. 

Todavia. as vezcs o microprogramador quer desviar, condicional ou incondicionalmeme. A notaęao para des- 
vios incondicionais e fdcil: 
goto label 

e pode ser incluida em qualquer microinstruęao para nomcar expiicitamente sua succssora. Por exemplo, a maioria 
das scqiieneias de microinstruęao terminu com um retomo a primeira instruęao do laęo principal, ponanto a Ultima 
instruęao cm cada urna dessas $cqiiencias normalmente inclui 
goto Mainl 

Notę que o caminho de dados esta disponń/el para operaęóes normais mesmo durantc a microinstruęao que 
contćm um goto. Afinal. toda microinstruęao individual conlćm um campo NEXT_ADDRESS. A tarcia de goto e ins- 
truir o microassembler a eolocar um valor especifico nesse campo cm vez de no endercęo oude ele decidiu colocar 
a microinstruęao na linha seguintc. Em principio, toda linha dcvcria ter urna declaraędo goto; apenas como urna con- 
veniencia para o microprogramador. quando o endercęo visado for a próxima linha, ele pode ser omitido. 

Para ilesvios eondicionais, precisamos dc urna notaęao dilercntc. Lembrc-sc dc que JAMN c JAMZ usam os bits 
N e Z, que sao ajustados com base na safda da ULA. As vezes e preciso testar um registrador para ver se ele e zero. 
por exemplo. Um modo de fazer isso seria passa-lo pela ULA e armazena-Io em si mesmo. Escrever 
TOS = TOS 

parcce peculiar, embora exeręa sua funęao — ajustar o flip-flop Z com base em TOS. Contudo, para que os micro- 
programas pareęam melhores, agora estendemos o MAL adicionando dois registradores imaginarios. N e Z, aos 
quais se podem designar atribuięóes. Por exemplo, 

Z =TOS 

passa TOS pela ULA. ajustando assim os flip-flops Z (e N), mas nao faz um armazenamento em qualqucr registra- 
dor. Usar Z ou N como um destino equivale a dizer ao microassembler que ajuste todos os bits no campo C da Figura 
4.4 para 0. O caminho de dados executa um ciclo normal, com todas as operaęóes normais permitidas, mas nenhum 
registrador e escrito. 

Notę que nao importa se o destino e N ou Z; a microinstruęao gerada pelo microassembler e identica. 
Programadores que escolhem intencionalmente a forma ‘errada’ deveriam ser obrigado? a trabalhar em um IBM PC 
original dc 4,77 MHz durante urna seniana, como castigo. 

A sinlaxc para dizer ao microassembler quc ajuste o bit JAMZ ć 
if (Z) goto Lt; else goto L2 

Urna vez que o hardware rcqucr quc os 8 hits dc ordem baixa desses dois endcrcęos sejam identieus, cabe ao 
microassembler dcsignii-los a endcrcęos com cssa propriedade. Por outro lado. visto que 12 pode estar em qualquer 
lugar nas 256 pulavras que estao mais einbaixo no armazenamento de controle. o microassembler tent bustante libcr- 
dade para achar um par dispontvel. 

Normalmente, essas duas dcclaraęóes serdo combinadus; por excmplo: 

Z = TOS; if (Z) goto LI; else goto L2 

O elcito dessa deelaraęao e quc MAL gera urna microinstruęao na qual TOS e passada pela ULA (mas nao e 
ormazenada em lugar algum) de modo que seu valor ajusta o bit Z. Logo após Z ser carregado a partir do bil de con- 
diędo da ULA, ele passa por urna operaęUo OR com o bit de ordem alta do MPC. foręando o endercęo da próximu 
microinstruęao a ser buscado em L2 ou LI (que deve ser exatamcntc 256 mais do que 12). MPC estara estdvel e 
pronto a ser utilizado para buscar a próxima microinstruęao. 

Por firn. precisamos de urna notaęao para usar o bit JMPC. A notaęao que usaremos serd 
goto (MBR OR value) 



Essa sintaxc diz ao microassembler para usar value para NEXT. ADDRESS e ajustar o bit JMPC dc mcxio quc 
MBR o NEXT ADDRESS scjtun combinados por urna operaęiio OR, c o rcsultado. artna/cnado em MPC. Sc vulue for 
(}. que e o caso normai. basta escrever 

goto (MBR) 

Notę que somentc os 8 bits de ordem baixa de MBR sao ligados ao MPC (veja a Figura 4.5), portanto a ques- 
tao da exten.sao dc sinaJ fisto ć. MBR versus MBRU) nao surge aqui. Alćm disso, notę que o VIBR disponfvei no finał 
do cido cm qucstao e o que e utilizado. Uma busca iniciada nessa microinstruęao esta muito atrasada para afetar a 
cscolha da próxima microinstruęao. 

4.3.2 Implementaęao de IJVM que usa a Mic-1 

Finalmcnte chegumos ao ponto em que podemos juntar todas as partcs. A Tabela 4.3 ć o microprograma que 
cxecuta cm Mic-1 c intcrprcta IJVM. fi urn programu surpreendentemcntc curto — somentc 112 microinstruęóes 
no total. Siio dadas trćs colunas para cada microinstruęiio: o rótulo simbólico, o microcódigo propriamente dilo e 
um comentario. Notę que microinstruęóes consceutivas nao cstao neccssariamenle localizadas cm endereęos con- 
sccutivos no armazcnamenio de contrulc. como jii haviamos comentado. 

A essa altura a cscolha de nomcs para a maioria dos rcgistrudores na Figura 4.1 ja dcve ser óbvia: CPP, LV e 
SP sao usados para eontcr os ponteiros para o conjunto de constantes, variiiveis locais e o topo da pilha, respectiva- 
mente. enquanto PC eontem o endereęo do próximo bytc a ser buscado na corrcnte de instruęiio. MBR ć um regis- 
irador de 1 byte que eontem os bytes da seq(iencia de instruęiio, 4 medida que eles chegam da memória para ser 
intcrprctados. TOS e O PC sao registradores extras. Sua utili/.uęao e desenia a seguir. 

Em ccrtas ocasiócs. e garantido que cada um desses registradores contenha certo valor. mas cada um pode ser 
usado como um registrador transitório se necessario. No inicio c no finał de cada instruęao, TOS eontem o valor do 
endereęo dc memória apontado por SP, a pałam quc csta no topo da pilha. Esse valor e redundante, uma vez que 
sempre pode ser lido da memória, mas te-lo em um registrador muitas ve/.cs economiza uma referenda a memóna. 
Para algumus poucas instruęóes, manier TOS significa nut Li operaęóes de memória. Por excmplo, a instruęao POP 
joga fora a pałam do topo e, portanto, dcvc buscar a nova palavra de topo da pilha na memória e passd-la para TOS. 

O registrador OPC e um registrador temporario (isto e, transitório ( scratch )). Ele nao tern nenhuma utilizaęao 
predeterminada. fi usado, por exempio, para salvar o endereęo do opcodc para uma instruęao de desvio enquanto o 
PC e inerementado para acessar parametros. Tambćm ć usado como um registrador temporario nas insłTuęóes de 
desvio condicional UVM. 

Como todos os interpretadores, o microprograma da Tabela 4.3 tern um laęo principal que busca, decodificu c 
cxecuta instruęóes do programa que csta sendo interpretado, nesse caso, instruęóes !JVM. Seu laęo principal come- 
ęa na linha de rótulo Mainl. Inicia com a invariantc de que PC tenha sido previamentc carregado com um endereęo 
dc uma localizaęao dc memória que eontem um opcode. Alćm do mais, esse opcodc ja foi trazido para denim do 
MBR. Contudo. obscrvc quc isso implica que. quando voltarmos a essa tocalizaęao, devcmos asscgurar que PC foi 
atualizado para apontar o próximo opcodc a ser interpretado c o próprio byte do opcode ja foi trazido pura dentro 
dc MBR. 

Essa seqiićncia inicial de instruęóes e cxecutada no infcio dc cada instruęiio, entao e importunte que ela seja a 
mais eurta posstvcl. Por meio de um projeto muito cuidadoso do hardware e do software da Mic-1, conscguimos 
reduzir o laęo principal a uma tinica microinstruęao. Uma vcz iniciada a mtiquina, toda vez quc essa microinstru- 
ęao for cxecutada. o opcodc IJVM para cxccutar ja estti presente em MBR. A tarcfa dessa inicroinstmęao ć dcsviar 
para o microcódigo para exccutar a instruęao UVM e tambem iniciar a busca do bytc após o opcodc. que pode ser 
um byte dc operando ou o próximo opcode. 

Agora podemos revelar a real razao por que cada microinstruęao nomcia explicilamcnte sua succssora em vez 
dc executd-las cm seąilencia. Todos os endereęos do armazenamento de eonlmle corrcspondcntes a opcodcs devem 
ser rcservadox para a primeira pulavra do intcrprctador dc instruęao corrcspondenle. Assim. pela Tabclu 4.2. vemos 
que o cikligo que interprcla POP comeęa cm 0x57 c o código que interpreta DUP comeęa em 0x59. Como o MAL 
eonsegue colocar POP cm 0x57 e um dos grandes mistćnos do umvcrso - descontiumos que ha um arquivo em 
algum lugar quc o informa. 

Infelizmente. o cikligo para POP tern trćs iTUcroinstruęóes dc comprimento, portanto, se colocado cm palavras 
consecutivas, interferiria com o infcio dc DUP. Uma vcz que todos os endereęos do armazenamento dc controlc cor- 
respondentes a opcodes siio efctivamcntc rcservados. as mierninstruęóes. cxceto a inicial cm cada sequencia. devcm 
ser colocadas nos cspaęos entre os endereęos rcservados. Por essa raziło, ha muitos saltos para la c para ca; dessa 
maneira. ter um microdesvio cxplfcito — microinstruęao que desvia — a cada poucas microinstruęóes para sal tar 
de buraco cm buraco seria muito dcsperdfcio. 

Para ver como o intcrprctador trabalha. vamos considerar. por cxempIo. quc MBR contćm o valor 0x60. isto ć. 
o opcode para IADD (veja a Tabela 4.2). No laęo principal de uma só microinstruęao realizamos trćs coisas: 

i. Incremcntamos o PC. que fica contendo o endereęo do primciro byte após o opcodc. 

z. Iniciumos uma busca do próximo byte para MBR. Mais cedo ou mais tarde esse byte sempre sera ncccs- 
stirio, seja como um operando para a instruęao UVM corrcnte, seja como o próximo opcode (como no cxso 
da instruęao IADD. que nao tern bytes de operando). 
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3 . Execuuimos um desvio multivius ale o endereęo contido em MBR no inieio dc Maml. Esse endercęo e 
igual ao vaior numerku do opcode que estii sendo exccutado no momenuj cm qucstao. Ele foi colocado 
ali pela microinstruęao anterior. Nao esqucęa de obsorvar que o valor que esta sendo buscado nessa 
tnioroinstruędo nao desempcnha ncnhum papci no desvio mullivias. 

A busca do próximo bytc ć iniciada aqui. porlanto ele estara dispom'vcl no inieio da lerceira microinslruęao. 
Ele pode ser ou nao necessario nessc momcnto, porem, inais cedo ou mais tarde. sera necessario. Portanlo, em todo 
easo, iniciar a busca agora nao podcra lazer mai algum. 


Tabela 4.3 

Microprograma para a Mic-1. 


R Rotulo 

| Operaęoes 

Comentarios 4 

Mainl 

PC = PC - 1; fetch; goto (MBR) 

MBR contem opcode; obtenha o próxnno byte; 
despache 

nopl 

goto Mainl 

Nao faęa nada 

laddl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

iadd2 

H = TOS 

H = topo da pilha 

iadd3 

MDR = TOS = MDR + H; wr; goto Mainl 

Some as duas palavras do topo; escreva para 
o topo da pilha 

isubl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte 4 do topo da pilha 

isub2 

H = TOS 

H = topo da pilha 

lsub3 

MDR = TOS = MDR - H: wr; goto Main 1 

Eietue suhtraęao; escreva para topo da pilha 

iandl 

MAR = SP = SP - 1; rd 

Leia a paiavra seguinte a do topo da pilha 

iand2 

H = TOS 

H = topo da pilha 

iand3 

MDR = TOS = MDR AND H; wr; goto Mainl 

Do AND; escreva para novas topo da pilha 

iorl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte 4 do topo da pilha 

ior2 

H mi TOS 

H = topo da pilha 

ioi3 

MDR = TOS = MDR OU H; wr; goto Mainl 

Do OR; escreva para nova topo da pilha 

dupl 

MAR = SP = SP + 1 

Incremente SP e copie para MAR 

dup2 

MDR = TOS; wr; goto Mainl 

Escreva nova palavra da pilha 

popi 

MAR = SP = SP - 1; rd 

Leia a palavta seguinte 4 do topo da pilha 

pop2 


Espere nova TOS ser Uda da memóna 

P°p3 

TOS = MDR; goto Mainl 

Copie nova palavra para TOS 

swapl 

MAR =• SP - 1; rd 

Set MAR to SP - 1; leia 2a palavra da pilha 

swap2 

MAR = SP 

Ajuste MAR para palavra do topo 

swap3 

H = MDR; wr 

Salve TOS em H: escreva 2a palavra para topo 
da pilha 

swap4 

MDR = TOS 

Copie TOS antigo para MDR 

swapS 

MAR = SP - 1; wr 

AJuste MAR para SP - 1; esaeva como 2a palavra 
na pilha 

swap6 

TOS = H; goto Mainl 

Atualize TOS 

bipush 1 

SP = MAR = SP + 1 

MBR — o byte para passar para a pilha 

bipush2 

PC - PC + 1; fetch 

Incremente PC, busque próidmo opcode 

bipush3 

MDR = TOS = MBR; wr; goto Main l 

Esteńda sinal da constante e passe para a pilha 

iloadl 

H = LV 

MBR contóm indiee; copie LV para H 

iload2 

MAR = MBRU + H; rd 

MAR = endereęo de vanavel looal para passar 
para pilha 

iload3 

MAR = SP = SP + 1 

SP aponta para novo topo da pilha; prepare escrita 

Uoad4 

PC = PC + 1; fetch; wr Inc 

PC; obtenha pnńdmo opcode; escreva topo da pilha 

lloadS 

TOS = MDR; goto Mainl 

Atualiza TOS 


(Continua) 
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Tabela 4.3 Microprograma para a Mic-1 fConnnuaęao). 


[i RÓtUlO 

Operaęóes 

MBR contem indice; Copie LV para H 

istore2 

MAR = MBRU + H 

MAR = endereęo de vanavel local onde armazenar 

istore3 

MDR - TOS; wr 

Copie TOS para MDR; escreva palavra 

istore4 

SP = MAR = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

istore5 

PC =PC + 1; fetcb 

Incremente PC; busąue próidmo opcode 

istore6 

TOS = MDR; goto Mainl 

Atualize TOS 

wideł 

PC = PC + i; fetch; 

Busąue byte de operando ou próximo opcode 

wide2 

goto (MBR OU 0x100) 

Ramificaęao multhrias com bit alto ajustado 

widejloadl 

PC =PC+ l; fetch 

MBR contem lo byte de indice; busąue 2o 

wide_iload2 

H = MBRU « 8 

H = lo byte de indice deslocado 8 bits para a 
esąuerda 

wide_iload3 

H = MBRU OR H 

H = indice de 16 bits de vanavel local 

wide_iload4 

MAR = LV + H; rd; goto Uoad3 

MAR = endereęo de variśvel local para passar 

wide_istoreI 

PC = PC + 1; Ietch 

MBR contśm lo byte de indice; busąue 2o 

wide. istore2 

H = MBRU « 8 

H = la byte de indice deslocado 8 bits para a 
esąuerda 

wide_istore3 

H = MBRU OR H 

H = indice de 16 bits de variavel local 

wide..istore4 

MAR = IV + H; goto istore3 

MAR = endereęo de variaveł local no qual annaze- 
nar 

ldc_wl 

PC = PC + 1; fetch 

MBR contóm lo byte de indice; busąue 2o 

ldc^w2 

H = MBRU « 8 

H = lo byte de indice « 8 

ldc_w3 

H = MBRU OR H 

H = indice de 16 bits dentro do conjunto de cons- 
tantes 

ldc_w4 

MAR = H + CPP; rd; goto iload3 

MAR = endereęo de constante no conjunto de cons- 
tantes 

iincl 

H = W 

MBR contem indice; Copie LV para H 

iinc2 

MAR = MBRU + H; rd 

Copie LV 4 indice para MAR; Leia vanavel 

iinc3 

PC=PC+ 1; fetch 

Busąue constante 

iinc4 

H =■ MDR 

Copie variavel para H 

iincS 

PC=PC+ 1; fetch 

Busąue próximo opcode 

iinc6 

MDR = MBR 4- H; wr; goto Mainl 

Ponha soma em MDR; atualize vanavel 


gotol 

goto2 

goto3 

goto4 

gotoS 

goto6 

0PC = PC- 1 

PC = PC 4- 1; fetch 

H= MBR «8 

H = MBRU OR H 

PC = OPC + H; fetch 

goto Mainl 

Salve endereęo de opcode. 

MBR = lo byte de deslocamento; busąue 2o byte 

faesloąue e salve primeiro byte com sinal em em H 

H= Deslocamento de desvio de 16 bits 

Adicione deslocamento a OPC 

Espere para buscar o proximo opcode 

ifitl 

MAR = SP = SP - 1; rd 

Lem a palavra seguinte a do topo da pilha 

iflt2 

OPC =TOS 

Salve TOS em OPC temporanamente 

lflt3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

lflt4 

N = OPC; if |N> goto T; else goto F 

Desvio de bit N 

ifeąl 

MAR = SP = SP - 1; rd 

Leia a pałam seguinte a do topo da pilha 

ifeq2 

OPC = TOS 

Salve TOS em OPC temporariamente 

ifeq3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

ifeq4 

Z = OPC; if (Z) goto T; else gotoF 

Desvio de bit Z 


.. 

(Continua) 
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Tabela 4.3 Microprograma para a Mic-1 [Cantinuaęao). 


Operacaes 


li.icmpeąl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

if jcmpeq2 

MAR = SP = SP - 1 

Ajuste MAR para ler novo topo da pilha 

if ,tcmpeq3 

H = MDR; rd 

Copie segunda palavra da pilha para H 

if.jcmpeq4 

OPC = TOS 

Salve TOS em OPC temporariamente 

ifjcmpeq5 

TOS = MDR 

Ponha novo topo da pilha em TOS 

it_icmpeq6 

Z = OPC - H; d (Z) goto T; eise goto F 

Se 2 pnlavras do topo da ptlha iguais. goto T. else 
goto F 

T 

OPC = PC - 1; goto goto2 

0 mesmo que goto I; necessario para endereęo-edvo 

F 

PC = PCh-1 

Salte primeiro byte de deslocamento 

F2 

PC = PC + 1; fetch 

PC agora aponta para próxmio opcode 

F3 

goto Mam 1 

Espere por busca de opcode 

invokevirtual 1 

PC ■= PC + 1; fetch 

MBR = byte de indice; 1; inc. PC. obtenha 2o byte 

mvokevirtual2 

H = MBRU « 8 

Desloąue e salve primeiro byte em H 

invokevirtual3 

H = MBRU OH H 

H = deslocamento de ponteiro de metodo em rela- 
ęao a CPP 

invoke\rirtual4 

MAR - CPP + H; rd 

Obtenha ponteiro para metodo da area CPP 

invpkeviituai5 

OPC =■ PC +1 

Salve Return PC em OPC temporariamente 

invokevirtuał6 

PC = MDR; fetch 

PC aponta para novo metodo; obtenha contagem de 
parametros 

invokevirtual7 

PC = PC+ l; fetch 

Busque 2o byte da contagem de parametro 

mvokevtitual8 

H =■ MBRU « 8 

Desloąue e sahre primeiro byte em H 

invokeviitual9 

H = MBRU OR H 

H = mimero de parametros 

invokevirtuailO 

PC = PC + 1; fetch 

Busąue lo byte de # tocais 

invokeviiTualll 

TOS = SP - H 

TOS = endereęo de OBJREF - 1 

invokevirtuall2 

TOS - MAR = TOS + 1 

TOS = endereęo de OBJREF (novo LV) 

invokeviituall3 

PC = PC+ 1; fetch 

Busąue 2o byte de # locais 

invokevirtual 14 

H = MBRU « 8 

Desloąue e salve primeiro byte em H 

invokevirtuall5 

H -= MBRU OR H 

H = # locais 

invoke\rirtuall6 

MDR = SP + H + 1; wr 

SobresCTeva OBJREF com ponteiro de enlace 

invokevirtuall7 

MAR = SP = MDR; 

Ajuste SP, MAR para localizaęao para conter PC 
antigo 

invokevirtuall8 

MDR = OPC; wr 

Salve PC anhgo acima das vanaveis locais 

invokevlrtuall9 

MAR = SP ~ SP + l 

SP aponta para localizaęao para conter LV antigo 

invokevirtual20 

MDR = ŁV; wr 

Sahre LV anhgo acima do PC sahre 

invokevimial21 

PC = PC+ 1; fetch 

Busąue primeiro opcode do novo metodo 

invokevirtuaJ22 

LV = TOS; goto Maml 

Ajuste LV para apontar para LV Frame 

ireturnl 

MAR - SP = LV; rd 

Reajuste SP, MAR para obter ponteiro de ligaędo 

iretum2 


Espere por leitura 

ireturn3 

LV = MAR =» MDR; rd 

Ajuste LV para ponteiro de Iigaęao; obtenha PC 
antigo 

iretum4 

MAR = 07+1 

Ajuste MAR para ler LV anhgo 

ireturn5 

PC - MDR; rd; fetch 

Restaure PC; busąue prómmo opcode 

iretum6 

MAR = SP 

Ajuste MAR para escrever TOS 

ireturn7 

LV = MDR 

Restaure LV 

iretum8 

MDR = TOS; wr; goto Mainl 

Salve valor de retomo no topo de pilha original 




Sc acaso os hytcs cm MBR forem todos zeros. o opcodc para urna instruęao NOP. a microinstruęao seguintc. ć 
3 que tem rótulo nopl. buscada da localizaęio 0. Uma vcz que essa instruęao nada faz, cla simplcsmcntc dcsvia dc 
voita ao infcio do iaęo principaJ onde a scqiiencia ć repctida. mas com um novo opcode buscado cm MBR. 

Mais uma vez destacamos que as microinstruęóes na Tabela 4.3 nao siło consecutivas na memóriu e que Marni 
nao esui no endereęo 0 do armazenamento de controle < purquc nopl tem dc estar no endereęo 0). Cabc ao microus- 
sembler colocar cada tnicroinstnięuo em um endereęo adcquado c liga-las cm scqućncias curtas usando o campo 
NEXT ADDRESS. Cada scqiiencia comcęa no endereęo correspondcnte ao valor numćrico do opcode IJVM que 
inierprcui (por cxemplo. POP comeęa em 0x57). mas o rcsto da scqueneia pode estar em qualquer lugar do arma- 
zenumento de controle. e nao nccessuriamente no endereęo consecutivo. 

Agora considere a instruęao UVM IADD. A microinstruęao pani a qual o Iaęo principal desviou e a quc tem o 
nitulo iaddl. Essa mstruęao inicia o trabalho especffico dc IA0D: 

t. O TOS jti esld presentc, mas a palavra anlerior ii que esta no topo da pilha deve ser buscada na memória. 

2 . O TOS devc ser adicionado ii palavra anterior a do topo da pilha que foi buscada na memória. 

3 . O resultado, que devc ser passado para a pilha. deve ser armazenado de vo!la na memória, bem como 
armazenado no registrador TOS. 

Para buscar o operando na memória e necessario dccrementar o ponteiro da pilha c escreve-lo em MAR. Notę 
que, por convcnićncia. esse endereęo tambćm e o endereęo que serd usado para a eserita subseqiiente. Alóm do mais, 
visto quc essa localizaęilo serd o novo topo da pilha. esse valor deve ser atributdo a SP. Portanto. uma unica opera- 
ęao pode determinar o novo valor de SP e MAR. dccrementar SP. c escrevć-lo cin ambos os rcgistradores. 

Essas coisas sito realizadas no primetro ciclo. iaddl, e a operaęao de leitura i iniciada. Alóm disso, MPC oblóm 
o valor do campo NEXT ADDRESS dc iaddl, que e o endereęo dc iadd2. onde quer que ele possa estar. Entao iadd2 
ć lida do armazenamento de controle. Duranie o segundo ciclo. cnquanto espera o operando ser lido da memória. 
copiamos a palavra do topo da pilha do TOS para H, onde ela ficard dispomvel para a adięao quando a leitura for 
cuncluula. 

No inicio do terceiro ciclo. iadd3. MOR contćm o adicionando buscado na memória. Neste ciclo ele 6 adicio¬ 
nado ao conteiido dc H, e o resultado e armazenado de volta em MDR. bem como em TOS. Tambem ć iniciada uma 
operaęao de eserita. armuzenando a nova palavra de topo de pilha de volta na memória. Neste ciclo. o goto tem o 
efeiio de atribuir o endereęo de Matni ao MPC, o quc nos leva de volta ao ponto de partida para a execuęao da pró- 
xima instruęao. 

Se o opcodc UVM subseqiiente. agora contido em MBR, for 0x64 (ISUB), quasc exatamente a mesma seqiićn- 
cia de eventos ocorre novamcnle. Após a execuęao de Main 1. o controle e transferido para a microinstruęao em 0x64 
(isubl ). Essa microinstruęło e scguida por isub2 c isub3. e entao mwamenie Mainl. A unica diferenęa entrc essa 
scqiiencia e a anterior ć que em isub3. o conteiido de H e subtraido de MDR em vez de somado a ele. 

A interpretaęao dc IAND e qua.se idćnuca a de IADD c ISUB. cxceto que as duas palavras do topo da pilha pas- 
sam por uma operaęao AND bil a bit em vez. de serem somadas ou subtnudas. Algo similar acnntece para IOR. 

Se o opcode UVC for DUP. POP ou SWAP. a pilha deve ser ajustada. A instruęao DUP simplcsmente duplica 
a palavra do topo da pilha. Uma vez que o valor dessa palavra ja esui armazenado cm TOS. a operaęao ć tao sim- 
ples quanlo incrcmentar SP para apontar para a nova localizaęao e armazenar TOS naque!a localizaęao. A instruęao 
POP ć quase tao simplcs. apenas decrementa SP para descartar a palavra que esta no topo da pilha. Contudo. para 
manier a palavra do topo cm TOS, agora ć necessario ler a nova palavra do topo na memória e cscrevil-la em TOS. 
Por firn, a instruęao SWAP envoive permutar entrc si os valores cm duas localizaęócs dc memória: as duas palavras 
do topo da pilha. Essa operaędo ć facilitada dc certa forma pclo falo de o TOS jó eon ter um desses valores, portan¬ 
to cle nao precisa ser lido da memória. Essa instruęao seni discutida com mais detaihes mais adiante. 

A instruęao BtPUSH e um pouco mais complicada porque o opcodc ć seguido por um tinico bytc, como mos- 
tra a Eigura 4.15. O bytc deve ser inlerprctado como um intciro com sinal. Esse bytc. quc ja foi buscado para MBR 
em Mainl. deve ser estendido em sinal para 32 hils c passado para o topo da pilha. Portanto. essa seqiiencia dcve 
estenderem sinal o bytc cm MBR para 32 bits e copia-lo para MDR. Por firn. SP ć incrcnicntado e copiado para MAR. 
pemutindo quc o operando seju cscrilo para o topo da pilha. No caininho. esse operando tatnhem devc ser copiado 
para TOS. Alćm disso. antes dc rctomar para o programu principal. notę que PC deve ser inerementado de modo que 
o proximo opcode estara disponivel cm Mainl. 

Em seguida considere a instruęao ILOAD. fLOAD tambem tem um bytc após o opcode. como mostra a Figura 
4 .16ta), mas esse bytc ć um tndice Isem sinal) para idcntilicar a palavra no espuęo dc variiivcis locais que sera pas- 
sada para a pilha. Uma vez quc ha somente 1 bytc. apenas 2* = 156 ptaicm ser distinguidas, a saber. as primeiras 
256 pulavras no cspaęo de vuriaveis locais. A instruęao ILOAD requer uma leitura (para obter a palavra), bem como 
uma eserita tpara passa-lu para o topo da pilha). Para determinar o endereęo para leitura. entretanto. o deslocamcn- 
to. contido em MBR. deve ser adicionado ao conteiido de LV. Uma vez que ambos. MBR e LV. só podem ser accssa- 
dos pelo barramento B. LV primeini ć copiado para H (em Hoadl ). cntSo MBR e adicionado. O resultado dessa adi¬ 
ęao ć copiado para MAR e urna leitura e iniciada (cm iload2). 

Figura 4.15 

Fonnato da mstiuęao BIPUSH. 
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Figura 4.16 

(a| ILOAD com um indice de 
I byte. |b| WIDE ILOAD com 
'im indice de 2 byłeś 

Contudo, a utili/aęao de MBR como um indice e lięeiramente difcrenie do quc cm BIPUSH. onde cle era esten- 
dido cm sinal. No caso de um indice. o deslocamcnto e scrnprc positivo. portanio o deslocamento do byte devc ser 
interprctado como um intciro scm sinal. di teren te de BIPUSH. onde era interpretado como um inteiro de 8 bits com 
sinal. A interface de MBR ao barramento B e cuidadosatnente projetada para possibilitar ambas as operaęóes. No 
caso de BIPUSH (inteiro de 8 bits com sinal) a operaęao adcquada e cxtcnsao de sinal. isto ć. o bil da cxtrcma esquer- 
da no MBR dc I byte e copiado para os 24 bits superiores no barramento B. No caso de ILOAD (intciro dc 8 bits sem 
sinal). a operaędo adequada e prcencher com zeros. Nesse caso. os 24 bits superiores do barramento B sito simpies- 
mentc supridos com zeros. Essas duas operaęóes sao distinguidas por sinais sepantdos que indicam quai operaęao 
devc ser exeeutada (veja a Figura 4.5). No microcódigo, isso e indicado por MBR (estendido cm sinal. como em 
BIPUSH 3) nu MBRU (sem sinal. como em lload2). 

F.nquanto osta esperando que a memória fomcęa o operando (cm lload3), SP e inerementado para contcr o valor 
pstra armazenar o rcsultado. o novo topo da pilha. Esse valor tambem ć copiado para MAR em prcparacao para escre- 
ver o operando para o topo da pilha. Mais urna vez o PC deve ser inerementado para buscar o próximo opcode (em 
lload4). Por lim, MDR e copiado para TOS para reflctir o novo lopo da pilha (em lloadS). 

ISTORE e a operaęao inversa de ILOAD, isto e. urna palavra e retirada do topo da pilha e armazenada na loealiza- 
;ao especiticada pela somu de LV e do fndice contido na instruęao. Elu usa o mesmo formatu de ILOAD. mostrado na 
Figura 4.16(a). oxceto quc o opcode e 0x36 cm vez de opcode 0x15. Essa instruęao e um pouco diferentc do que pode- 
rtumos esperar por que a palavra do topo da pilha ja e conhccida (em TOS), portanto ela pode ser armazenada imedia- 
tamente. Contudo, a nova palavra do topo da pilha dcvc ser huscada. Assim. sao nccessurias urna cscrita. bem como 
urna leilura. mas cios podcm ser rcalizadas em quaiqucr ordcm (ou ate cm paralelo, se isso fosse poss(vel). 

Ambas. ILOAD e ISTORE. sao restritas, no sentido dc que só podcm accssar as primciras 256 variavcis locais. 
Au passo quc para grandę parte dos program as esse espaęo de vandvcis locais seja mais do quc suńcicnte. e claro 
que ć ncccssario poder accssar urna variavel onde quer quc ela esteja localizada no espaęo de variaveis locais. Para 
fazer isso, UVM usa o mesmo mecanismo empregado em JVM: um opcode cspecial WIDE (largo), cunhccido como 
byte de prcflxo. seguido pclo opcode ILOAD ou ISTORE. Quando essa seqtlencia ocorre. as dellnięóes de ILOAD e 
ISTORE sao moditicadas. com um indice de 16 bits após o opcode. em vcz de um (ndicc de 8 bits. como mostra a 
Figura 4.16<b). 

WIDE e dccodiiicada do modo usual. lcvando a um dcsvio para wideł que mantpula o opcode WIDE. Embora 
o opcode para alargar, ou ampliar (widen) ja esteja disponivcl em MBR, wideł busca o primeiro byte após o opco- 
dc. porque a lógica do microprograma semprc espera quc cle esteja ali. Eniao e leito um segundo desvio multivias 
em wide2. desla vez usando o bile após a WIDE para despachar. Contudo. urna vez que WIDE ILOAD requer micro¬ 
código diferentc do dc ILOAD, e WIDE ISTORE rcąuer microcódigo difcrcnte do de ISTORE etc., o segundo desvio 
mullivius nao pode só usar o opcode como o cndcreęo-alvo. do mesmo modo que faz Mami. 

Em vez Jisso. wide2 efetua uma operaęao OR de 0x100 com o opcode enquanto o estd colocando em MPC. O 
rcsultado e que a interprelaęao de WIDE ILOAD comeęa em 0x115 (em vez de 0x15), a interpretaęao de WIDE ISTO¬ 
RE comeęa em 0x136 (em vez dc 0x36) e assim por diante. Dessc modo. todo opcode WIDE comeęa em um ende- 
reęo 256 palavras mais alto. isto e, 0x100. no armazenamenio de controle do que o opcode regular correspondcnte. 
A seqUCncia inicial dc microinstruęóes para ambas, ILOAD e WIDE ILOAD. ć mostrada na Figura 4.17. 

Armazenamenio 
Enderaco ,jo controle 


Ordem de execuędo 
do imcromstruęao 

WIDE 
ILOAD ILOAD 
3 


2 

2 





0x001 




▼ 

* 

i 

Figura 4.18 

A instruęao IINC tein dois 
campos de operando diferentes. 

Uma vez alcanęado o código para implcmentar WIDE ILOAD (0x115). a diferenęa cnirc ele e o ILOAD normal 
e soraentc que o fndice deve ser construido concatcnando 2 bytes de fndice etn vez de simplesmentc estender cm 
sinal uin byle tinieo. A concatcnaęao e subsequente adięao devem ser efetuadas cm etapas. primeiro eopiando INDEX 
BYTE 1 em H deslocado 8 bits para a esquerda. Visto que o fndice e um inteiro sem sinal. o MBR d estendido cm 
/.eros usando MBRU. Agora o segundo byte do fndice <5 adicionado (a operoędo dc adięao d idćntica ii concatcnaęao. 
uma vcz que o byte de ordcm buixa de H agora d zero, garaniindo que ndo haveni vai-um entre os bytes) e. nova- 
mentc. o resultado e armazenado em H. Daf em diante, a opcraęao pode seguir cxatamcntc como se fosse urna 
ILOAD padrao. Em vez de duplicar as instruęóes finais de ILOAO (iioad3 a iloadS), simplesmentc desviamos de 
wide.lload4 para iload3. Todavia, notę que PC devc ser inerementado duas vczes duranle a csecuęao da instruęiio dc 
modo que passe a aponlar para o pmximo opcode. A instruęao ILOAO u incrcmenta uma vez; a sequeneia 
WIDE_ILOAD tambem o incrcmenta uma vez. 

A mesma situaęiio ocorrc para WIDEJSTORE: após a cxccuędo das primeiras quatro microinstruęóes — 
wide Jstorel ate wide _istore4 —. a seqlidncia d a mesma de ISTORE após as duas primeiras instruęócs. portanto 
wide istore4 dcsvia para istore3. 

O próximo excmplo quc considcramos d uma instmęilo LDC_W. Esse opcode tern duas difercnęas em rclaędo 
u ILOAD. A primcira e que ele tern um deslocamento sem sinal de 16 bits (como a versdo largu, ou ampliadu. dc 
ILOAD). A segunda d que cle d indcxado a partir de CPP em vez dc LV. uma vez quc sua funęao d ler do conjunto de 
eonstantes em vez do quadro de variavcis locais. Na verdade. hd um forma curta de LDC.W (LDC). mas nao a incluf- 
mos em UVM, ja que a forma longa incorpora todas as possfvcis variaęflcs da forma curta, mas toma 3 bytes em 
vez de 2. 

A instruęiio IINC ć a tinica instruęao 1JVM, exceto a instruęao ISTORE, que pode modificar uma variavel local. 
Ela o faz incluindo dois operandos, cuda um de I byte de comprimento. como mostra a Figura 4.18. 

A instruęiio IINC usa INDEX para cspecificar o deslocamento em relaęao ao infcio do quadro de variaveis locais. 
Ela 12 aquela variavel, inerementando-a por CONST, um valor eontido na instruęao, e volta a armazend-la no mesmo 
local. Notę quc essa instruęao pode inerementar por uma quantidade negativa, isto d, CONST e uma constante de 8 
bits com sinal. na faixa -128 a +127. A JVM completa inclui uma versao ampliada da IINC ondc cada operando 
tern 2 bytes de comprimento. 

Agora chegamos ii primcira instruęao de desvio da IJVM: GOTO. A funęao exclusiva dessa instruęao e altcrar 
o valor de PC, dc modo quc a próxima instruęao IJVM cxecutada seju a que esta no endercęo calcu lado adicionun- 
Jo o deslocamento dc 16 bits (com sinal) ao endercęo do opcode do dcsvio. Uma complicaęao que surge nesse easo 
d quc o deslocamento d rclativo ao valor quc o PC tinha no infcio da dccodificaęiio da instruęao, e nao ao valor quc 
ele tern depois que os 2 bytes de deslocamento foram buscados. 

Para esclarecer esse ponto, na Figura 4.19(a) vemos a situaęiio no infcio de Mainl. O opcode jd esid em MBR. 
mas PC ainda ndo foi inerementado. Na Figura 4.19(b) vcmos a situaęiio no infcio de gotol. Nesta altura o PC jd foi 
inerementado. mas o primeiro byte do deslocamento ainda ndo foi buscado para MBR. Uma microinstruęiio depois 
temos a Figura 4.19(c), na qual o antigo PC. que aponla para o opcode, foi salvo cm OPC e o primeiro byte do des- 
locamento estd em MBR. Esse valor d necessario porque o deslocamento da instruęiio GOTO UVM d rclativa a ele e 
ndo ao vulor oorrente de PC. Na verdade, essa d a razdo primordial por que precisamos do refeistrador. 
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A microinstruęao etn goto2 inicia a busca do segundo bytc de deslocamento. o que lcva a Figura 4.19(d) no 
initio de goto3. Depois que o primeiro bytc do deslocamento loi dcslocado 8 bils para a esquerda e copiado para H. 
chcgamos ern goto4 e a Figura 4.19(c). Agora temos o primeiro byte de desloeamemo deslocado para a esqucrda cm 
H, o segundo byte de deslocamento em MBR o a base em OPC. Construindo o deslocamento de 16 bits completo ent 
H e entao o adicionando a base. obtemos o novo endercęo para eolocar em PC. em gotoS. Nao esqueęa de observar 
que usamos MBRU em goto4 em vez de MBR porquc nao qucromos extensao dc smal do segundo byte. Na verdadc, 
o deslocamento dc 16 bits e construido efetuando uma operaęao OR eom as duas metades. Por firn. temos de bus- 
car o próximo opcode antes de voltar a Mainl porque o eódigo que ali estd espeni o próximo opcode em MBR. O 
ultimo ciclo. goto6. ć ncccssario porque os dados da memória piałem >er huscados a tempo de apareeer em MBR 
durantc Main t. 

Os dcslocamentos usados na instruęao goto 1JVM sao valorcs dc 16 bits eom sinal, com urn mfnimo de 
- 32768 c um maximo dc +.12767. Isso significa que dcsvios para qualqucr lado para rótulos mais distantes do que 
esses valores nao siło possivcis. Essa propriedade pode ser eonsiderada como um bug ou uma earactcrfstica cm 
IJVM (e tambem em JVM). A turmą do bug diria quc a detiniędo dc JVM nao dcvcria restringir scu estilo dc pro- 
gramaędo. A turmą dii carnctcristica diria que o tmbalho de muitos programadores sofreria uma melhoria radical se 
eles u ves.se m pcsadclos com a temida mensagem do compilador: 

Program Is too big and hairy. You must rewrite It. Compilation aborted. 

(Programa muito grandę e conluso. Voce precisa rccscrevć-lo. Compilaęuo abortada.) 

lnfclizmcntc (dc nosso ponto dc vista) essa mensagem só aparccc quando uma cliiusula then ou clse passa dc 
32 KB. o que normaimentc representa 30 pdginas de iava. 

Agora considere as tres instruęócs IJVM dc desvio condicional: IFLT, IFEQ e IFJCMPEO. As duas primeiras 
reiiram a pulavra que estd no topo da pilha. dcsviando sc a palavra for menor do quc zero ou igual a zero. rcspccti- 
vantentc. IFJCMPEO retira as duas palavras do topo da pilha e desvia sc, e somente sc, clas torem iguais. Em todos 
os trćs casos. e necessdrio ler uma nova palavra dc topo dc pilha para armazenar em TOS. 

O eontrole para essas trćs instruęóes e semeihante: o operando ou operandos sao primeiro colocados em regis- 
tradores. entao o novo valor do topo de pilha e lido para TOS. finalmente sao rcaiizados o teste e o desvio. Considere 
IFLT em primeiro lugar. A palavra a testar ja estd cm TOS. porem, uma vez que IFLT retira uma palavra da pilha. o 
novo topo da pilha tern de ser Uda para armazenar em TOS. Essa Icitura e iniciada cm ifltl. Em i(lt2. a palavra a ser 
testada i salva cm OPC por enquanto. portanio o novo valor pixle ser colocado em TOS dentro em pouco sem per- 
der o valor corrcntc. Em idt3 a nova palavra de topo dc pilha estd dispomvcl cm MOR. portanto e copiada para TOS. 
Por lim, cm iflt4 a palavra a ser testada, agora salva em OPC. ć passada pela ULA sem ser armazenada e o bit N e 
;tmostrado e lestado. Essa microinstruęao tambem contem um dcsvio. que escolhe T se o teste foi bem-sucedido e 
F, caso contrdrio. 

Sc bem-sucedido, o restante da operaęao e. em essćncia, o mesmo quc no inicio da instruęao GOTO, e a seqiićn- 
eia siinplcsmcntc continua no meio da scqUencia GOTO. com goto2. Se inalsuccdida, ć necessaria uma seqiiencia 
curta (F, F2 e F3) para pulur o resto da instruęao (o deslocamento) antes dc voltar a Mainl para condnuar com a ins- 
truęao seguinte. 

O eódigo em i(eq2 e ifeq3 segue a mesma lógica, só quc usando o bit Z em vez do bit N. Em ambos os casos, 
cabe ao asscmbler de M AL rceonheccr que os ondcrcęos T c F sao espcciais e garantir quc seus endereęos sejam colo¬ 
cados em endereęos de armnzcnamcnio dc eontrole cuja difcrcnęa seju upenas o bit da extrema csqucrda. 

A lógica para IFJCMPEO e hastante semeihante it IFEQ exceto que nesse caso precisamos ler tambem o segun¬ 
do operando. Esse operando e armazenado em H em ifjcmpeq3, ondc a Icitura da nova palavra do topo da pilha e 
iniciada. Mais uma vez. a palavra de topo de pilha corrcntc e salva cm OPC c a nova e instaiada em TOS. Por Um. 
o teste em it jcmpeq6 e semeihante a ifeq4. 

Agora eonsidenunos a implemenlaęao de INVOKEVIRTUAL e IRETURN, as instruęócs para invocar uma chama- 
da de procedimento e retomo. como descrito na Scędu 4.2.1. INVOKEVIRTUAL e uma scqiióncia de 22 microinstni 
ęóes e e a mais complcsa instruęao implementada em UVM. Sua operaęilo loi mostnida na Figura 4.10. A instruęao 
usa seu deslocamento de 16 bits para determinar o endercęo do metodo a ser invocado. Em nossa implemenlaęao. o 
deslocamento e simplesmente um deslocamento no Conjunto dc Constantes. Sua localizaędo nesse conjunto aponta 
o metodo a ser invocado. Contudo. lembrc-sc de-quc os pnmeiros 4 byłeś de cada metodo nao sao instruęóes, e sim 
dois pontciros de 16 bits. O pritneiro da o mimero de palavras dc parilmetro — incluindo OBJREF (veja a Figura 
4.10). O segundo da o tamanho da drea de varidveis lix;ais em palavras. Esses campus sao buscados por meio da porta 
de 8 bits c montados exatamente como sc tbsscm dcslocamentos dc 16 bits dentro dc uma instruęao. 

F.ntdo. a informaęao de enlace necessaria para rcstaurar a maquina a seu esuido anterior — o endercęo do ini¬ 
cio da drea de variaveis antiga e o PC antigo — e armazenada imediatamente acima da drea de variaveis locais 
rccćm-criada c abaixo da nova pilha. Por lim. o opcode da próxima instruęao e buscado e o PC e inerementado antes 
dc retomar a Mainl para iniciur a próxima instruęao. 

IRETURN e uma instruęao simplcs que nao contćm operandos. Ela simplesmcnte usa o endercęo armazenado 
na primeira paluvra da drea dc varidveis locais para rceuperar a informaęao dc ligaęao. entao restaura SP. LV e PC 
a seus valores anteriores e copia o valor de retomo do topo da pilha eorrcnte para o topo da pilha original. como 
mostra a Figura 4.11. 
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4.4 Projeto do nivel de microarąuitetura 

F.xatamente como quasc tudo na cićncia da computaęao. o projeto da microarquitetura esta rcpleto de compro- 
missos. Computadorcs tern muitns caractcrfsticas dcsejaveis, entre elas vclocidadc, custo, confiabilidadc. facilidadc 
de utilizaęao, requisitos de energia c tamanho ffsico. Contudo, urn compromisso eoinanda as dccisóes mais impor- 
tantes que os projctisias de CPU dcvcm tomar: vclocidade contra custo. Ncsta scęao estudaremos esse assunto deta- 
Ihadamente para ver o que pode ser permutado polo que. que grau de desempenho ptKlc ser alcanęado e a que preęo 
om hardware e comp!exidudc. 


4.4.1 Velocidade contra custo 

Embora a tccnologia mais rdpida tenha resultudo no maior dos aumentos dc vclocidade em quutqucr perfodo 
dc tempo considerado, esse assunto nao se cnquadra no escopo deste livro. Melhorias de vclocidadc devidas a orga- 
nizaęao. embora menos espetacuiarcs do que as dcvidas a circuiros mais rapidos, ainda assim sao impressionantes. 
Velocidadc pode ser medida dc varias muneiras. mas dadas urna tecnologia de circuitos c urna ISA. hii tres aborda- 
gens basicas para aumentar a vclocidadc dc cxecuęao: 

ł. Reduzir o numeru dc ciclos de relógio necessarios para executar urna instruęao. 

2 . Simpliiieur a organizaęao de modo quc o cielo de relógio possa ser mais curto. 

3. Sobrepor a exccuęao de instruęócs. 

As duas primciras sao óbvias. mas hii urna surpreendente variedade dc oportunidades de projeto que pode afc- 
tar drasticamente o mimero de ciclos dc relógio, o perfodo de relógio, ou — em grandę parte das vezes — arnbos. 
Ncsta scę3o. darcmos urn excmplo dc como a codificaęao e a decodilicaęao de urna operaęao pode afetar o ciclo dc 
relógio. 

O mimero dc ciclos de relógio necessiirio para cxecutar um conjunto de operaęóes ć conhecido como compri- 
mento do caminho. As vezes o comprimento do caminho pode ser encurtado adicionando hardware especializado. 
Por excmplo, adicionando um incrcmentador — conceitualmente um soinador com um lado permanentemente liga- 
do a ‘some 1' (add 1) —ao PC, nao prccisamos mais usar a ULA paru lazer avanęar o PC. climinando ciclos. O 
preęo a pagar ć mais hardware. Todavin. cssa capacidade nao ajuda tanio como seria de esperar. Na maioria das ins- 
truęócs. os ciclos consumidos para incrcmcntar o PC tambem sao ciclos cm que urna operaęao dc leitura estd sendo 
cxecutada. Em todo caso, a instruęao seguinte nao pode ser executada mais cedo porque ela depende dos dados que 
vfim da memória. 

Reduzir o mimero de ciclos de instruęao necessario para busear instruęoes requer mais do que apenas um cir- 
cuito adicional para inerementar o PC. Para acelcrar a busca de instruęao em qualquer grau significalivn. a terceira 
tecnica — sobreposięao de execuęao — dcve ser cxplorada. Scparar o circuito dc busca de instruęoes — a porta de 
memória de 8 bits e os registradores MBR e PC — ć mais cfedvo se, em termos funcionais, a unidadc lor montada 
independentemente do caminho dc dados principal. Dessc modo, ela pode busear o próximo opcode ou operando 
por conta própria, talvcz ató mesmo executando fora de sineronia em rclaęao ao restante da CPU e buscando urna 
ou mais instruęócs com antecedftncia. 

Urna das fases que mais consome tempo na execuęao de muitas das instruęócs e busear um deslocamento de 
2 byles, estende-lo adequadaincnte e o acumular no registrador H em prcparaęao para uma adięao, por excmplo, cm 
uma ramificaęfio dc PC ± n bytes. Uma soluęao potcncial — construir uma porta dc memória de 16 bits de largu- 
ra — complica muito a operaędo porque, na vcrdade. a memória tern 32 bits dc largura. Os 16 bits necessdrios 
podem abranger frontciras dc pulavras. de modo que ató mesmo uma tinica leitura de 32 bits nao buscara necessa- 
riamcnic ambos os bytes necessarios. 

Sobrepor a execuęao dc instruęoes e. de longe. o mais interessante e oterecc a melhor oportunidade para dnis- 
ticos aumentos de vcloctdade. A simplcs sobreposięao da busca e execuęao de instruęócs da um rcsultado surpreen 
dentemente cfctivo. Entretanlo, tecnicas mais solisticadas avanęant muito mais. sobrepondo a execuęao de muitas 
tnstruęóes. Na verdade. essa ideia esta no coraęao do projeto de computadores mtxlemos. Mais adiantc discutirc- 
mos algumas das tćcnicas basicas para sobrepor cxecuęao de instruęócs e upresentaremos o motivo para as mais 
solisticadas. 

Velocidadc ć apenas metadc do quadro; custo e a outra meiadc. O custo pode ser medido dc vdrios modus, mas 
uma dctinięao precisu dc custo e problematica. Algumas medidas sao muito simples. tal como uma contagcm do 
mimero dc componcntes, o que era viilido cm particular nu ćpoca em que processadores eram compostos de com- 
ponentes discretos quc eram cotnprados c monuidos. Hoje. o processador intciro estd contido em um tinico chip. 
mas chips maiores o mais complexos sao muito mais caros do quc os tnenores, mais simplcs. 

Componcntes individuais — por exemplo. transistores, portas ou unidades funcionais — podem ser contados. 
mas quasc sempre o mimero resullante nao e tao importantc quanto a quantidadc dc arca requcrida no circuito inic- 
grado. Quanto mais arca for rcquenda para as funęóes mcluidas. maior serd o chip, e o custo dc fabricaęao do chip 
crcsce com rapidcz muito maior do que sua arca. Por essa razao. projetistas costutnam falar de custo em termos uti- 
lizados na arca imobiliaria. islo e. a arca rcquerida por um circuito (imagino quc seja medida cm pieo-heelares). 
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Um dos circuitos muis cxaustivaincntc estudados na historia e o somador bituirio. Ha milhares dc projctos c os 
mais rapidos sao muito mais velo/.cs do que os mais Icntos — c tam hem muito mais complexos. O projeusta de sis- 
tcntas tern dc decidir sc a maior vcloeidade valc o prcęo do ‘imÓYel’. 

Somadores nflo sao os unicos componcntcs quc tem muitas opęócs. Praticamcntc qualqucr componente do sis- 
tcma pode ser projetado para executar mais rapidamente ou mais Icntamcnte, eom um diferencial de custo. O desa- 
fio para o projetista e idcntificar os componentes que mais podem melhorar o sistema e entao aumentar a veiocida- 
de desses componentes. O interessante e que muitos componentes individuais podem ser subslituidos por um 
componente muito mais vc!oz e causar pouco ou nenhum efeito sobre u velocidadc. Nas seęfies seguinles examina- 
remos algumas das questóes de projeto e os compromissos corTcspondcntes. 

Um dos fatorcs tundamentais para determinar a vcIocidadc em quc um relógio pode cxecutar ć a quantidade 
de trabaiho que dcve ser rcali/.ada em cada eiclo de relógio. Obviamentc, quanto muis trabulho a ser realizado. muis 
longo serd o cięło de relógio. Claro que nao e assim tao simples. porquc o hardware e muito bom pura fazer coisas 
em paralelo. Port anto, na verdade, o quc determina o comprimento do ciclo de relógio e a scquencia de operuj ócs 
que dcvem ser executadas em serie em um unico ciclo de relógio. 

Um aspecto que pode ser cnnlrolado e a quantidade de decodifieaęilo que deve ser rcalizada. Letnbre-se. por 
exemplo, de que na Figura 4.5 vimos que. embora qualquer um dc nove registradores pudesse ser lido para a ULA 
a partir do barramento B, prccisdvamos dc apenas 4 bits na palavra de microinstruęńo para especificar qual regis- 
trador H devia ser selccionndo. Infclizmente, essas economias tćra um prcęo. O circuito de decodilieaędo agrega 
atraso ao caminho critico. o que signiiica que quulqucr registrador quc habilitc seus dados para o barramento B rcce- 
bera o comando um pouquinho mais tardc e obiera seus dados no barramento um pouquinho mais tarde. Isso pro- 
voea um efeito em cascata. com a ULA recebendo suas entradas um pouco mais tarde e produzindo seus resultados 
um pouco mais tarde. Por fint. o resultado estani dispotu'vel no barramento C para ser escrito nos registradores tam- 
bem um pouco mais tarde. 

Urna vez que esse atraso muitas vezes e o fator que determina o comprimento do ciclo de relógio. isso pode 
significar que o relógio nao pode funcionar com tanta rapidez e todo o computador deve funcionar um pouco mais 
lentamentc. Assim. ha urna permuta entre velocidade e custo. A reduęao do armazenumento de comrole em 5 bits 
por palavra vem ao custo da reduęao da velocidadc do relógio. O engenheiro de projeto dcve levar em conta os obje- 
tivos do projeto ao decidir qual e a opęao correta. Para urna implementaęao de alto desempenho, usar um decodifi- 
cador provavelmenlc nao e urna boa idćia; para urna implementaęao dc baixo custo. pode ser. 

4.4.2 Reduęao do comprimento do caminho de execuęao 

A Mic-l foi projetada para ser moderadamente simples e moderodamente riipida. embora admitamos que ha 
urna enormc tensao entre esses dois objetivos. Em poucas palavras, maquinas simples ndo sao rapidas e maquinas 
rapidas nao sao simples. A CPU da Mic-1 tambem usa urna quantidadc minintu dc hardware: dez registradores. a 
ULA simples da Figura 3.18 repetida 32 vczes. um dcslocador, um dccodificador, um armazenamento de controlc 
e um pouquinho de cola aqui e ali. O sistema intciro poderia ser montado com menos de 5.000 transistores mais o 
lanto que o armazenamento dc comrole (ROM) e a memória principal (RAM) precisarcm. 

Agora que jd vimos como a IJVM pode ser implementada de modo direto em microcódigo com pouco hard¬ 
ware. ć hora de examinar implcmentaęóes altemativas. mais rdpidas. A seguir vamos esludar modos dc reduzir o 
ntimero dc microinstruęóes por instruęao ISA (isto e, reduzir o comprimento do caminho de execuęao). Dcpois 
disso. vamos considerar outras abordagens. 

Incorporaęao do laęo do interpretador ao miCTOCÓdlgo 

Na Mic-l. o laęo principal consiste em umn microinsiruęao quc devc ser executada no inicio de cada instru¬ 
ęao UVM. Em alguns casos e posstvel sobrcpó-la i inslruędo anterior. Na verdade. isso jd foi conseguido, ao menos 
em parte. Nule que. quando Maint e executada. o opcode a ser interpretado ja esta cm MBR. O opcixlc esta ali por 
quc foi buscado pelo laęo principal anterior (sc a instruęao anterior nao linha opcramJos) ou durantc a execuęao da 
instmędo anterior. 

Esse conceito de sobrepor o inicio da instruęao pode ser levado muis adiantc e. na rcalidadc. em alguns casos 
o laęo principal pode ser reduzido a nada. Isso pode ocorrcr da segumte mancira. Considerc cada scqiiencia de 
microinstruęóes quc terminu desvumdo para Maml. Em cada um desses lugarcs a microinstruęao do laęo principal 
pode ser agregada ao finał da scqilencia. em vcz dc ao inicio da próximu sequencia. sendo que o desvio multivias 
agora i repetido em muitos lugarcs. mus sempre com o mesmo conjunto dc alvos. Fm alguns casos a microinstru¬ 
ęao Mainl pode ser incorporada a microiastruęóes anteriores. jii que essas instruęócs nem sempre sao totalmentc uti- 
lizadas. 

Na Tabela 4.4 e mostrada a seqiiencia dinamica dc instruęóes para urna instmędo POP. O laęo principal ocor- 
rc antes e dcpois de cada instruęao; na figura mostramos apenas a ocorrencia após a instruęao POP. Notc que a exc- 
cuęao dessa instruęao lcva qualro ciclos de relógio: tres para as microinsiruęócs especificas para POP e urna para o 
laęo principal. 
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Tabela 4.4 Seguencta original de microprograma para executar POP. 


| Rótulo 

Operacoes 

Comentarios | 

popi 

MAR — SP -= SP - 1; rd 

Lela a palavra anlerior a do topo na pilha 

pop2 


Espere novo TOS ser lido da memória 

pop3 

TOS = MDR; goto Maml 

Copie nova palavra para TOS 

Mainl 

PC = PC + 1: fetch; goto (MBR| 

MBR contem o opcode; obtenba próximo byte; despache 


Tabela 4.5 Seąuenda de microprograma melhorada para executar POP. 


1 Rdtulo 

Operaęoes 

Comentarios |1 

popi 

Maml 

pop3 

MAR =SP=SP- 1; rd 

pop PC = PC + l; letch 

TOS = MDR: goto (MBR) 

Leia a palavra antenor a do topo na pilha 

MBR contem opcode: busąue prózuno byte 

Copie nova paiavra para TOS; despache em opcode 


Na Tabela 4.5 a seqiiencia foi redu/ida a tres instruęóes que incorporam as instruęóes do laęo principal. apro- 
veiiando um ciclo de relógio no qual a ULA nao e usada cm pop2 para economiznr um ciclo e novamcn(e cm Mainl. 
Nao csqucęa dc obscrvar quc o finał dcssa scqiiencia dcsvia dirctamcnte para o código especffico para a instruęuo 
subseqilente portanto. sao requcridos upenas tres ciclos no total. Esse pequeno estratageina rcduz de um ciclo o 
tempo dc cxccuęao da próxima microinstruęao: portanto. por exemplo. uma IADD subseqiłente passa de quatro 
ciclos para trćs. Assim, isso equivalc a aumcntar a velocidade do relógio de 250 MHz (microinstruęóes de 4 ns) para 
333 MHz (microinstruęóes de 3 ns) sem pagar nada. 

A instmęao POP se ajusta particularmcnte a esse tratamento porquc ela tern um ciclo ocioso no mcio que nao asa 
a ULA. Contudo. o laęo principal usa a ULA. Por isso. reduzir o comprimento da instmęao por um fator dentro de urna 
instmęao rcquer achar um ciclo na instmęJo no qual a ULA nao estd em uso. Esscs ciclos ociosos nao sao comuns. mas 
neonem, ponanto. valc a pena incorporar Main I ao finał de cada scqtiencia de microinstruęao. Tudo isso custa um pouco 
de armiizenamento dc controle. Assim. temos nossa primcim tecnica para reduzir o comprimento do caminho: 

Incorpore o laęo do i nterpretador ao finał dc cada sccfućncia de microcódigo. 

Arąultetura de tres barramentos 

O quc mais podemos fazer para reduzir 0 comprimento do caminho de execuęao? Unia outra soluęao fticil e 
ter dois barramentos complctos de entrada para a ULA, um barramento A e um barramento B, o que dii tres barra¬ 
mentos no total. Todos (ou ao menos a maioria) os registradores devcm ter acesso a ambos os barramentos de entra¬ 
da. A vantagcm de ter dois barramentos de entrada e que entao e possfvel adicionar qualqucr registrador a qualqucr 
outro registrador em um só ciclo. Para vcr o valor dcssa caracteristica, considere a implementaęao Mic-1 dc ILOAO. 
mostrada novamente na Tabela 4.6. 

Vemos que em lloadl LV e copiado para H. A unica raziło para LV ser copiado para H e que, assim, ele poder ser 
adicionado a MBRU cm iload2. lim nosso projeto original dc dois barramentos nao ha nenhum modo dc adicionar 
registradores arbitriirios. portanto. em primeiro lugur. um deles tern de ser copiado para H. Com nosso novo proje¬ 
to de tres barramentos, podemos economizar um ciclo, como mostra a Tabela 4.7. Nesse caso. adicionamos o laęo 
do interpretador a ILOAO. mas isso nem alimenta nem diminui o comprimento do caminho de execuęao. Ainda 
assim. o barramento adicional reduziu o tempo total de cxecuęao de ILOAD de scis para einco ciclos. Agora temos 
nossa segunda tecnica para reduzir comprimento de caminho: 

Passe de um projeto de dois barramentos para um projeto de tres barramentos. 


Tabela 4.6 Código Mic-1 para executar ILOAD. 


1 Rondo 

Operaęoes 

Comentarios j 

iloadl 

H =■ U/ 

MBR contem indice; Copie IV para H 

iload2 

MAR - MBRU + H; rd 

MAR — endereęo de vanaveis locaia a buscar 

iload3 

MAR - SP « SP + 1 

SP aponta para novo topo da pilha: prepare escrita 

doad4 

PC = PC + 1; letch; wr 

Incremente PC; obtenha novo opcode; escreva topo da pilha 

iloadS 

TOS - MDR, goto Maml 

Atualize TOS 

Main) 

PC-PC v 1: fetch; goto (MBR| 

MBR contćra opcode; obtenha prónmo byte; despache 


• L 
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Taueia 4.7 Código de tres banamentos para executar ILOAD. 


iload 1 

MAR = MBRU + LV; rd 

MAR = endereęo de vanavel local a buscar 

iload2 

MAR - SP = SP + 1 

SP aponta para novo topo da pilha; prepare escrita 

iload3 

PC = PC + 1; fetch; wr 

Incremente PC; obtenha novo opcode; escreva topo da pilha 

iload4 

TOS - MDR 

Atualize TOS 

lloadS 

PC = PC + 1; fetch; goto (MBR) 

MBR ja contćm opcode; busąue byte de indice 


Unldade de busca de instruęao 

Valc a pena usar essas duas tćcnieas mas. para conscguir urna melhoria drastica, prccisamos dc algo muito 
mais radical. Vamos vollar airiis um pouei) e examinar as partes comuns dc loda instruęao: a busca e a decodifica- 
ęao dos campus da instruęao. Obscrvc que, para cada instruęao, pudem ocorrcr as seguintes operaęóes: 

1. O PC ć passado pela ULA e incrcmentado. 

2 . O PC e usado para buscar o próximo byte na seqiiencia de instruęoes. 

3. Operandos sao lidos da memória. 

4. Operandos sao escritos para a memória. 

s. A ULA efetua um calcuio c os resultados sao armazenados dc voita. 

Se urna instruęao tiver campus adicionais (para operandos), cada campo deve ser buscado explicitamente. I 
byte por vez, e montado antes de poder ser usado. Buscar e monlar um campo ocupa a ULA por no minimo um 
ciclo por byte para incremenlar o PC, e entao novamente para mon tar o indice ou deslocamento resultante. A ULA 
e usada cm praticamente Lodos os ciclos para urna variedade de operaęóes que tćm a ver com buscar a instruęao e 
monlar os campos dentro da instruęio, alem do ‘trabalho’ real da instruęao. 

Para sobrepor o aęo principaJ e neeessario liberar a ULA dc algumas dessas larefas. Isso poderia ser feito com 
a introduęao de urna segunda ULA, embora nao seja necessdrio urna ULA completa para grandę parte da ativida- 
de. Observe quc, em muitos casos. a ULA e simplesmente usada como um carainho para copiar um valor de um 
registrador para oulro. Esses ciclos poderiam ser eliminados introduzindo caminhos de dados adicionais que nao 
passem pela ULA. Como exemplo, pode-se conseguir algum beneffeio criando um caminho de TOS a MDR, ou de 
MDR a TOS. urna vez quc a palavra do topo da pilha e copiada freqiientemente entre esses dois registradores. 

Na Mic-1, grandę parte da carga pode ser retirada da ULA criando urna unidade independente para buscar e 
processar as instruęoes. Essa unidade. denominada IKU (Instruction Fetch Unit — unidade de busca de instru- 
ęao), pode inerementar o PC independentemente e buscar bytes antes de eles serem nccessarios. Essa unidade 
requcr somente um inerementador, um circuito muito mais simplcs do que um somador completo. Levando essa 
ideia mais adiante. a IFU tambem pode montar operandos de 8 e 16 bits dc modo que eles estejam prontos para uso 
imediato sempre que necessdrio. Hd no minimo dois modos dc fttzcr isso: 

x. A IFU pode interpretar cada opcode, determinando quantos campos adicionais dcvcm ser buscados. e 
monta-los em um registrador, prontos para a utilizaęao pela unidade dc execuęao principal. 

2 . A IFU pode aproveitar a natureza seqiiencial das instruęoes e disponibilizar os próximos fragmentos de 8 
e 16 bits todas as vezes, quer isso tenha ou nao algum senlido. Entao, a unidade de execuęao principal 
pode rcquisitar o que precisar. 

Mostramos os rudimentos do segundo esquema na Figura 4.20. Em vez de um tinieo MBR dc 8 bits, agora ha 
dois MBRs: o MBR1 de 8 bits c o MBR2 de 16 bits. A IFU monitora o byte. ou bytes, mais rcccntcmcnte consuntido 
pela unidade dc esccuęao principal. Tambem dispnnibiliza o próximo byte em MBR1. exatamcntc como na Mic ! 
exceto que percebe auloraaticamenie quando MBR1 e lido. busca o próximo byte antecipudamenle e o carrega em 
MBRt imedialamenle. Como na Mic l, ela tem duas interlaees com o barramenlo B: MBR1 c MBR1U. O primeiro e 
estendido em sinal para 32 bits: o ultimo e estcmlido para zero. 

De modo semelhante. o MBR2 olerece a tnesma luncionalidade mas contćm os próximos 2 bytes. Tambem tem 
duas interlaees com o barramento B: MBR2 e MBR2U. que copiain os valores de 32 bits estendidos em sinal e esten- 
didos em zeros. respectivamente. 

A IFU ć rcsponsiivei por buscar uma sequencia de bytes e faz isso usando uma porta de memória convencio- 
nal de 4 bytes. buscando pidavras inteiras de 4 bytes antes da hora e carregando os bytes consecutivos em um regis¬ 
trador de deslocamento que os fomece um ou dois por vez. na ordem em que foram buscados. A funęao do regis- 
trador de deslocamento e manter uma fila de bytes da memória, para alimentar MBR1 e MBR2. 

Em todas as vezes MBR1 contćm o byte mais antigo no registrador de deslocamento e MBR2 contćm os 2 bytes 
mais antigos (byte mais antigo na esquerda), para formar um inteiro de 16 bits (vcja a Figura 4.16(b». Os 2 bytes 
cm MBR2 podem ser de palavras de memória diierentes, porque instruęoes 1JVM nao se alinham em fronteiras de 
palavras na memória. 






1 


Figura 4.20 

Umdade de busca para a 
Mic-1. _ 


MBR2 



Sempre que MBR1 e lido, o registrador de deslocamento desloca 1 byte para a dircita. Sempre que MBR2 e lido. 
elc desloca 2 bytes para a direila. Entao MBR 1 e MBR2 sao recarrcgados a partir do byte mais anligo e do par de 
bytcs mais anligo. rcspeciivameme. Se agora restar cspaęo suficienlc no registrador de deslocamento para mais urna 
outra palavra inteira, a IPU inicia urn ciclo de memória para ler essa palavra. Admitimos quc, quando quaiquer um 
dos registradores MBR e lido, cle 6 prcenchido, novamcnte no inicio do ciclo scguinte. de modo quc pode ser lido 
em ciclos consecutivos. 

O projelo da 1FU pode ser modelado por urna FSM (Finitc State Machinę — maquinu de estudo (inito). 
como mostra a Figura 4.21. Todas as FSMs consistem em duas partcs: estados, represcntados por circulos. e tran- 
sięoes. reprcscntadas por arcos que vao dc um estado a outro. Cada estado rcprcscnta urna possivel situaęao na qual 
a FSM pode estar. Essa FSM particular tern setc estados. eorrespondcntes aos sete estados do registrador de deslo¬ 
camento da Figura 4.20. Os sete estados correspondem i quantidadc de bytcs que estao no registrador de desloca¬ 
mento no momento em questao. um ntimero entre 0 e 6. inclusive. 

Cada arco representa um evento quc pode ocorrer. Trćs eventos diferentes podem ocorrcr nesse easo. O pri- 
meiro evento ć a leitura dc l byte do MBRI. Essc cvento faz com quc o registrador de deslocamento seja ativado e 
1 hyte seja deslocado para fora da extremidade dircita. o que reduz o estado por um fntor dc I. O segundo evcnto ć 
a leitura de 2 bytes do MBR2. o que reduz o estado por um lator de 2. Essas duas transięóes fazem com quc MBRi 
e MBR2 sejam recarregados. Quando a FSM passa para os estados 0. I ou 2. e iniciada urna rcfcrćncia i mcmória 
para huscar urna nova palavra. considerando que u mcmória nao esteja ocupada lendo urna palavra. A chegada da 
palavra adianta o estado por um fator dc 4. 

Para trabalhar corretamcnte. a IFU dcvc bloquear quando rcquisitada para fazer algo que ndo pode fazer. tal 
como fomecer o valor de MBR2 quando ha somente I byte no registrador dc deslocamento e a memóriu ainda estd 
ocupada buscando urna nova paluvra. Aliim disso, ela só pode fazer urna coisa por vez. portanto eventos que estao 
chegando devem ser scrializados. Por firn. sempre quc PC e uiterado. a IFU deve ser atualizada. Esses detalhes a tor- 
nam mais complicada do quc mostramos. Ainda assim, muitos dispositivos de hardware sao construidos como FSMs. 

A IFU tern scu próprio registrador dc endereęo de mcmória, denominudo IMAR, que e usado para endercęar a 
mcmória quando urna nova palavra tern de ser buscada. Esse registrador tern seu próprio inerementador dedicado 
de modo quc a ULA principal nao e necessaria pani incseincnta-lo nem para buscar a próxima palavra. A IFU devc 
monitorar o burramento C de modo quc, sempre que PC for carregado. o novo valor de PC e copiado para IMAR. 
Urna vez que o novo valor em PC pode nao estar sobrc unia frontcira de paluvra. a IFU tern de buscar a palavra 
necessaria e lazcr o ajusle adequndo do registrador dc deslocamento. 



Translęóes 

MBRI: Ocorro quando MBRI a lido 
MBR2: Ocorre quando MBR2 8 lido 

Palavra buscada: ocorre quando uma paiavra da mamona e lida e 4 bytes 
sao colocaaos no registrador de deslocamemo 
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Com a IFU. a unidude de c.kccucuo prineipai eserevc para PC somentc quando lor necessario alterar a nature- 
za scqiiencial da correiue de bytes da instruęao. Ela escrevc por eausa dc uma instruęao de dcsvio bem-sucedida e 
cm virtude da INVOKEVIRTUAL e IRETURN. 

Uma vcz que o microprograma nao mais incrementa PC explicitamente. porque opcodes sao buseados. a IFU 
deve manier o PC atualizado. Ela faz isso percebcndo quando um bytc da insiruęao foi consumido. isio e. quando 
MBRl ou MBR2. ou as versóes sem sinal, foram lidos. Associado com o PC ha um incrementador separado. capaz 
dc incrcmentar por tatores de 1 ou 2. dcpendendo de quantos byles foram eonsumidos. Assim. o PC semprc conićm 
o endereęo do pnmciro bytc que nao foi consumido. No initio dc cada insiruęao, MBR conićm o endereęo do opco- 
de para aquela instruęao. 

Notę quc hu dois incremeniadores scparados e clcs executam funęfies difcrcntes. O PC conta bytes e incremen- 
la por um fator dc I ou 2. IMAR conta pala\ras. c incrementa somentc por um fator dc I (para A bytes novos). Como 
o MAR. o IMAR csid ligado obIiquamente ao barramcnlo de endereęo, sendo que o bil 0 do IMAR esta concctndo ii 
linha de endereęo 2. e assim por dianie, para efetuar uma convcrsao implfciln de cndcreęos de pulavros para ende- 
rcęos dc bytes. 

Como deialharcmos cm brcve, nao ter de incrcmentar PC no luęo prineipai representa um grandę ganho, por- 
que a microinstruęao na qual o PC e incrcmentado costuma fazer pouco mais do que incrcmentar PC. Se essa 
microinstruędo puder ser eliminuda, o caminho de execuęao pode ser reduzido. Nessc caso, a permuUt e mais hard¬ 
ware por uma miiquina mais riipida, portunto nossa tcrceira tćcnica paru reduzir comprimento de caminho ć 

Busąuc inslruędcs na memória com uma unidade funcional cspecializada. 

4.4.3 O projeto com busca antecipada: a Mic-2 

A IFU pode reduzir muito o comprimento do caminho da instruęilo media. Em primeiro lugar. ela elinuna todo 
o laęo prineipai. visto que o finał de cada instruęilo simplcsmcntc desvia dircuunente para a próxima instruęao. Em 
segiuido lugar. evita ocupar a ULA com a tarcia de incrcmentar o PC. Em tcrceiro lugar, reduz o comprimento do 
caminho semprc que um indice de 16 bits ou um dcslocamento e calculado, porque ela monla o valor dc 16 bils e 
o passa direlamemc para a ULA como um valor dc 32 bils. cvitando a ncccssidade de montagem cm H. A Figura 
4.22 mostra a Mic-2, uma versao melhorada da Mic-1 a qual foi aerescenlada a IFU da Figura 4.20. O mierocódi- 
go para a muquina melhorada e mostrado na Tabela 4.8. 











i 
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Vamos vollar ao ciclo 2. Agora podcmos comcęar a dcsmcmbrar swap2 om microctapas o i nicią-las lambem. 
No ciclo 2. podcmos copiar SP para B. cntao passa-lo pela ULA no ciclo 3 e linalmcnte armazena-lo om MAR no 
ciclo 4. Atć aqui. tudo bem. Dcve estar claro que, se pudermos continuar ncssa taxa, iniciando urna nova microins- 
truęao todo ciclo. triplicarcmos a velocidadc da maquina. Essc ganho vem do lato de que podcmos cmilir urna nova 
microinstruęao cm todo ciclo de re logio, c que a Mic-3 tcm tres vczes mais ciclos de relógio por segundo do quc a 
Mic-2. Na vcrdadc, constru/mos uma CPU com paralclismo (pipelined). 

Infclizmentc. encontramos urn cmpecilho no ciclo 3. Gostarfamos de comcęar a trabalhar cm swap3, mas a pri- 
meira coisa quo cla faz e passar MDR pela ULA. c MOR nao estara disponivel na incmória atć o infcio do ciclo 5. A 
situacao cm quc uma microetapa nilo pode iniciar porquc estd csperando um resultado que uma microetapa anterior 
ainda nao produziu ć dcnonunada dependencia verdadeira ou dependencia RAW. Dependencia* costumam ser 
denominadas ocorrenciarf. RAW qucr dizer Rcad After Write (leitura após escrital c indica que uma microetapa 
quer ler um registrador que ainda nflo foi eserito. A unica coisa scnsata a Inzer nesse caso ć atrasar o infcio dc swap3 
atć MDR estar disponfvcl no ciclo 3. Parar c esperar por um valor nccessdrio ć denominado protelnęiiu (stalling). 
Depois disso podcmos continuar iniciando mieroinstruęóes todo ciclo. poi* nao ha mais dcpcndćncias. embora 
swap6 cscape por um triz, uma vc/ quc le H nu ciclo após swap3 cscrevć-lo. Sc swapS dves.sc icntado ler H. cla 
(swap6) teria sido prntclada por um ciclo. 

Embora o programu Mic-3 levc mais ciclos do que o programu Mic-2. ainda assim ć mais rapido. Se dcnomi- 
narmos o tempo de ciclo da Mic-3 AT ns. cntao cla vai rcqucrer‘l I AT ns para exccutar SWAP. Por comparaęao, a 
Mic-2 leva 6 ciclos a 3AT cada. para um lotal de 18 AT. O paralclismo deixou a maquina mais riipida. ainda quc 
tivćssemos de protelar uma vez para cvitar uma dependćncia. 

Paralclismo ( pipelining ) ć uma tćcnica fundamenta! cm todas as CPUs modemas. portanto ć importantc cntcn- 
de-lo bem. Na Figura 4.24 vemos o caminho dc dados da Figura 4.23 ilustrado graficamcntc como um paralelismo 
(pipeline). A pnmeira coluna rcprescnta o que estd acontecendo no ciclo I. a scgunda coluna rcprcsenta o ciclo 2 e 
assim por dianie, considcrando quc nao huja nenhumu protelaęao. A rcgiao sombreada no ciclo I para a instruęao I 
indica quc a IFU csui ocupada buscando a instruęao 1. Uma batida de relógio mais tanie, durantc o ciclo 2, os regis- 
tradorcs rcquisitados pela instruęao I estao sendo carrcgudos nos registradores A e B cnquanto. ao mesmo tempo, a 
IFU estii ocupada buscando a instruęao 2. novamente mostrada pelos dois retangulos sombreados no ciclo 2. 

Durantc o ciclo 3. a instruęao I estu usundo a ULA e o dcslocador para cxccutar sua operoęao e os registrado¬ 
res A c B estao sendo carrcgudos para a instruęao 2, c u instruęao 3 esta sendo buscada. Por firn. durantc o ciclo 4. 
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quatro instruęóes estiio scndo proeessadas ao mesrno tempu. Os resultados da instruęao I estao sendo armazcnados, 
o trabalho da ULA para a instruęao 2 estd sendo rcalizudo, os registradores A e B para a instruęao 3 estao scndo 
carregados e a instruęao 4 csta sendo buscada. 

Se tivessemos mostrado o ciclo 5 e os ciclos subseqticntes, o padrao tcria sido o mesmo do ciclo 4: todas as qua- 
tro partes do caminlio dc dados que podem executar indcpendentemente cstariani lazendo isso. Esse projeto repre- 
senta um paralelismo de quatro estagios, com estigios para busca de instruęao. acesso a opcrando. operaęóes de ULA 
e escrita de volta paru os registradores. Ź similar ao paralclismo da Figura 2.4(a). cxceto pela ausencia do estśgio de 
decodificaęao. A questi!o importante a entcnder aqui <5 que, ernbora unia unica instruęao leve quatro ciclos de rclo- 
gio para esccutar. em todo ciclo de relógio urna nova instruęao e iniciada e urna vclha instruęao e concluida. 

Um outro modo dc ver a Figura 4.24 e seguir cada instruęao na pagina em scntido hori/.onlaJ. Para a instruęao 
I. no ciclo l a IFU esta trabalhando nela. No ciclo 2, seus registradores estao scndo colocados nos barramcntos A 
e B. No ciclo 3. a ULA c o deslocador estao trabalhando para ela. Por firn, no ciclo 4, seus resultados estao sendo 
armazcnados dc volta nos registradores. O quc se dcvc notar ncssc caso e que hii quatro seęócs do hardware dispo- 
niveis. e duranic cada ciclo, urna determinuda instruęao usa só um deles. liberando as outras seęocs para instruęóes 
diferentes. 

Urna analogia util para nosso projeto com paralclismo e urna Iinha dc montagcm dc uma fabrica de uutomó- 
veis. Para abstrair os aspcctos essenciais dcsse modelo, imagine quc um gongo ć tocado a cada minuto. quando 
entao lodos os automóvcis passam para uma cstaęao scguinte nu Iinha. Em cada cstaęao os trabalhudorcs que ali 
esido exccutum alguma operaęao no carro quc estd a sua frentc no momento cm questSo. como adicionar o volantc 
ou instalar os fircios. A cada batida do gongo (1 ciclo), um novo carro ć introduzido no infcio da Iinha dc montagcm 
c um carro pronto sai no tinal. Assim. ainda quc leve centcnas de ciclos para terminur um carro. a cudu ciclo um 
carro e concluido. A fabrica pode produzir um carro por minuto, independentc do tempo quc rcalmente leva para 
inontar um carro. Essa <5 a foręa do paralclismo. c cla se aplica igualmentc bem a CPUs e a fabricas dc automóveis. 

4.4.5 Paralelismo de sete estagios: a Mic-4 

Uma quesl3o a quc nao demos o devido dcsluquc e o Tato de que toda microinstruęao seleciona sua prdpria 
succssora. A maioria dc las apcnas seleciona a instruęao scguinte na seqtifincia corrente, mus a ultima, tal como 
swap6, muitus vezes faz um dcsvio multivias que atravanca o paralclismo. ja que e imposstvcl contiuuar lazendo 
busca antecipada após o desvio. Precisamos de um modo melhor dc lidar com essa questao. 

Nossa próxima (e ultima) microarquitetura ć a Mic-4. Suas partes principais estao ilustradas na Figura 4.25, 
mas uma quantidadc substancial de detalhes foi suprimida em beneftcio da clareza. Como a Mic-3, ela tern uma IFU 
que busca palavras da memória antecipadamcntc c mantem os varios MBRs. 

A IFU lambem alimenta a corrente de bytes quc estd entrando para um novo componentc. a unidadc de deco- 
dificaęao. Essa unidade tem uma ROM interna indcxada por opcode UVM. Cada entrada (Iinha) contćm duas par¬ 
tes: o comprimcnto daquela instruęao (JVM e um fndice para uma outra ROM, a ROM de microoperaęao. O com- 
primento da instruęao UVM i usado para permitir que a unidadc de decodificaęao faęa a analise sintatica iparse) 










Ja seqiiencia de bytes que csta enirando dividindo-a em instruęócs, dc modo que da sempre sabe quais bvtcs sdo 
opcodes e quais sao operandos. Sc o eomprimenlo da instruęao cm ąuestilo for 1 bytc (por exemplo, POP), entao a 
unidade de decodificaęao sabc quc o ptrócimo bytc ć urn opcodc. Contudo. se o eomprimenlo da instruęSo cm qucs- 
iao for 2 bytes. a unidade dc decodificaęao sabc quc o próximo byte ć um operando. seguido imediatamente por urn 
outro opcode. Quando o prcfixo WIDE ć visio, o próximo bytc 6 trans/onnado cm um opcodc largo especial, por 
exemplo. WIDE + HO AD sc toma WIDEJLOAD. 

A unidade dc decodificaęao dcspacha o indice na microoperaęao ROM quc cncontmu em sua tabela para o 
próximo componcntc. a unidade de enfileiramento. Essa unidade contćm somentc lógica mais duas tabelas inter- 
nas. urna em ROM e urna cm RAM. A ROM contćm o microprogratna, sendo que eada instruęao UVM tern um 
certo mimem de entradas consecutivas denominadas microoperaętks. As entradas devem estar cm ordem, portan- 
to nao sao permitidos truques como o desvio de wide_iload2 para l!oad2 na Mic-2. Cada scqućncia IJVM dcvc ser 
escrita por cxtenso. duplicando scqiiencias cm aiguns casos. 

As microoperaęócs sio similarcs ks microinstruęócs da Figura 4.4, exceto que os campos NEXT ADDRESS o 
JAM estao ausentes e um novo campo codificado e necessiirio para cspecificar a entrada do barramento A, Dois novos 
bits tambem siio fomecidos: Finał c Golo. O bit Rnal e marcado na ultima microoperaęao de eada seqdencia de 
microoperaęao UVM para sinaliza-la. O bit Goto e ajustado para marear microoperaęócs que sao microdesvios con- 
dicionais. Elas tćm um formato diferente do das microoperaęóes normais, eonsisundo nos bits JAM e um indice para 
a ROM dc microoperaęao. Microinstruęócs que fizeram alguma coisa antes eom o caminho de dados e tambćm rea- 
lizaram um microdesvio eondicional (por exemplo, iflt4) agora tern de ser subdivididas em duas microoperaęóes. 

A unidade de entlieiramemo funciona da seguinte maneira. Ela recebe um indice de ROM dc microoperaęao 
da unidade de decodificaęao. Entao examina a microoperaęao e a copia cm urna fila interna Em seguida tambem 
eopia a próxima microoperaęao para a lila, bem como a seguinte depois desta c assim continua ate encontrar urna 
cujo bil finał ć 1. Ela copia essa tambem e entao piira. Considerando que ela nao tenha encontrado urna microope¬ 
raęao com o bit Goto lijyido e que ainda tenha muito espaęo dc sobra na fila, a unidade de enfileiramento entao 
devolve um sinal de reconhecimento a unidade de decodificaęao. Quando a unidade de decodificaęao ve o reconhc- 
cimento. envia o indice da próxima instruęao UVM para a unidade de enfileiramento. 

Desse modo. por firn, a sequencia de instmęóes IJVM na memória e convertida cm urna seqiiencia dc microopc- 
raęóes em urna fila. Essas microoperaęóes alimcntam os MIRs, quc cnviam os sinais para conlrolar o caminho de 
dados. Contudo, ba um outro futor que temas de considcrar agora: os campos cm cada microopcraęiio nao estao ati- 
vos ao mesmo tempo. Os campos A e B estao ativos durantc o primciro ciclo, o campo ULA esta ativo durante o segun- 
do ciclo, o campo C estd ativo durante o terceiro ciclo, e quaisquer operaęóes dc memória ocorrcm no quarto ciclo. 

Para fazercom que isso funcione adequadamcnic, introduzimos quatro MIRs independentes na Figura 4.25. No 
inicio de cada ciclo de relógio (o tempo Aw na Tabela 4.1). MIR3 ć copiado para MIR4, MIR2 ć copiado para MIR3. 
MIR1 ć copiado para MIR2, e MIR1 ć carregado com urna nova microoperaęao da fila dc microoperaęóes. Entao. eada 
MIR cmite scus sinais de controlc. mas só aiguns dcles sao usados. Os campos A e B de MIR1 sao usados para selc- 
cionar os registradores quc scrao erwiudos aos barramentos A e B, mas o campo ULA em MIR1 niio e usado e nao ć 
conectado a nada mais no caminho dc dados. 

Um ciclo de relógio mais larde. essa microoperaęao passou para MIR2 e os registradores que ela selccionou 
agora estao seguros nos registradores A c B esperando pclas aventuras quc hao de vir. Scu campo de ULA agora ć 
usado para comandur a ULA. No próximo ciclo, seu campo C cscreverd os resultados dc volta nos registradores. 
Depois disso. ela possani para MIR4 e i mc i ara quaisquer operaęóes de memória neccssarias usando o MAR agora car¬ 
regado (e MDR, para urna escrita). 

Um liltimo aspccto da Mic-4 precisa dc um pouco dc discussao agora: microdcsvios. Algumas instruęócs 
1JVM. como IFLT, prccisam dcsviar condicionalmentc com buse, p«>r exemplo. no bit N. Quando ocorre unr micro- 
desvio, o parulelismo nao ptxlc continuar. Pora Udar eom isso, adicionamos o bit Goto ii microoperaęao. Quando a 
unidade dc enfileiramento atinge urna microoperaęao que tenha esse bil ajustado cnquanto a estd eopiando para a 
fila, ela perccbe quc hii problemas ii Trenie e se abstćm de enviar um reconhecimento i unidade de decodificaęao. 
O resultado e quc a rnaquina rteani parada nesse ponto atć que o microdcsvio tenha sido resolvido. 

E conccbivel que algumas instruęóes IJVM que estiio alem desse desvio jai tenham sido alimentadas na uni- 
iladc de decodificaęHo, mus niio na unidade dc enfileiramento. urna vcz que ela ndo devolve um sinal de rcconhcci- 
mento — isto e. continua — quando atinge uma microoperaęao na qual o bit Golo estii ligado. Sao ncccssiirios hard¬ 
ware c mccanismos cspeciais para acabar com a ennfusao e voltar a trilha certa, mas eles estao alćm do escopo deste 
livro. Quando Edsger Dijkstra cscrcvcu scu famoso artigo “GOTO stalcmcnt considercd harniful" (Decluraęao 
GOTO considcradu perigosai. ele niio tinha idćia do quanto estava certo. 

Percorremos um longo caminho desde a Mic-1. A Mic-1 era uma peęa de hardware muito simplcs. com quasc 
todo o controlc em software. A Mic-4 tern um projeto de alto paralelismo, com sctc estagios e hardware muito mais 
complexo. O pandclismo ć mostrado esquematicamente na Figura 4.26. Os numeros dentro dos circulos referem-se 
diretamentc aos componentes na Figura 4.25. A Mic-4 faz busca antccipada automalica de uma scqiićncia de bytes 
da memória. dceodifica-a para instruęócs IJVM, eonvertc-a para uma seqiieneia de microoperaęóes usando uma 
ROM e a cnfileira para usar quando nccessario. Os primeiros trśs estagios do paralelismo pudem ser vincuJados ao 
relógio do caminho de dados se desejado. mas nem sempre haverd trabalho a fazer. Por excmplo. a IFU ccrtamcn- 
te ndo pode alimentar um novo opcode IJVM a unidade de decodificaęao em cada ciclo de relógio porque inslru- 
ęóes 1JVM lcvam viirios ciclos para executar e a fila transbordaria rapidamente. 
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Hm cuda ciclo de relógio os MlRs sao dcslocados para a trenie c a mierooperaęao que csta no Qnal da lila e 
copiada para o MIRl para iniciar sua exccuęao. Os sinais de cnntrolc dos quatro MlRs entao sc cspalham pelo cami- 
nho dc dados fazendo com que ocomim aęóes. Cada MIR conirola urna poręao di teren te do caminho dc dados c, 
portanto, mieroeiapas difercntes. 

Neste projeto temos urna CPU de alto paralclismo que permitc que as etapas indtoiduais scjam muito curtas c, 
por isso, que a frequenda dc relógio seja alta. Muitas CPUs s3o projetadas essencialmente dcssa mancira, cm cspe- 
eiai as que tern de implementar urn conjunto de instruęóes mais antigo (CISC). Por excmplo, o conceito da implc- 
mentaęuo Pentium II e similur ao da Mic-4 om alguns aspectos, como vcremos mais adiantc neste capitulo. 


4.5 Melhoria de desempenho 

Todos os fabricantes de eomputadores querem que seus sistemas funcionem o mais rapidamcnte possfvel. 

Nesta seęao veremos algumas tćcnicas avanęadas que estao sendo investigadas para mclhorar o desempenho do sis- j 

tema (primordialmente CPU c memória). Devido a natureza de alta eompetitividade da industria de eomputadores, j 

a defasagem entre novas idei as que podem tomar um computador mais nipido e sua incorporaęuo a produtos e sur- 1 

preendentemente curta. Por conscqiiencia. a maioria das idćias que disculiremos ja es ta em uso em urna vasta mai o- | 

ria de produtos existentcs. 

As idćias que discutircmos podem ser classificadas. de modo geral, em duas grandes eategorias. Melhorias de i 
implementaęao e melhorias de arquitctura. Melhorias de implementaęao sao modos de construir urna nova CPU ou 
memória para fazer o sistema funcionar mais rapidamente sem mudar a arquitetura. Modiftcar a implementaęao sem 
altcrar a arquitetura significa quc programas antigos scrao exccutados na nova maquinu. um importante argumento 
de vcnda. Um modo de mclhorar a implementaęao ć usar um relógio mais nipido, mas nao ć o tinico. Os ganhos de 
desempenho obtidos na familia 80386, 80486, Pentium, Pentium Pro atć o Pentium II sc dcvem a implemcntaęócs 
melhores, porque. em essćnciu. a arquitetura pcrmaneceu a mesma em todas elas. 

Alguns tipos dc melhorias só podem ser feitos com a ulteruęao da arquitctura. As vczes essas alteraęóes sao 
increinentais, como adicionur novas instruęóes ou registradores, de modo que programas antigos continuarao a ser 
executados nos novos modelos. Nessc caso, para conscguir um desempenho complcto, o software tern de ser alte- 
rado, ou ao menos rccompilado com um novo compilador quc annweita as novas caracteristicas. 

Contudo, passadas algumas dćcadas, as projetistas percebem quc a antiga anjuitetura durou mais do que sua 
utilidadc e quc o tinico modo dc progredir e comcęar tudo de novo. A rcvoluęao RISC nu dćcada dc 1980 foi urna 
dessas inovaęócs; urna outra csta no ar agora. Vumos examinar am excmplo (Intel IA-64) no Capitulo 5. 

No restante desta seęao estudarcmos quatro tćcnicas diferentes para melhorar o desempenho da CPU. 
Comeęaremos com trćs melhorias dc implementaęao ja estahelecidas e entao passarentos para urna que precisa de 
um pouco dc suportc de urquitciura para funcionar mclhor. Essas tćcnicas sao memória cache, prcvisao de desvio, 
exccuęao fora da ordem com rcnomeaęao de registrador e cxccuęao especulativa. 

4.5.1 Memória cache 

Um dos aspectos mais desufiadores do projeto dc um computador em toda a historia tem sido ofcrcccr um sis¬ 
tema de memória capaz dc fomeccr operandos ao proeessador ii ve!ocidade em que ele pode processa-los. A reccn- 
te alta taxa dc crcscimento nu vclocidadc do proeessador nao foi acompunhuda de um aumento correspondcntc na 
vclocidade das memórias. Se comparadas com as CPUs. as memórias estao ticando mais lentas ha dćcadas. Dadu a 
cnorme iinportuncia da memona pninana cssa siluaęao linutou muito o desonvolvimcnlo dc sistemas dc alto 
desempenho e estimulou a pcsquisa a encontrar maneiras de contomar o problemu da vc!octdude das memórias que 
sao muito menorcs do quc as vclocidades das CPUs e. cm termos rclulivos. estao licando piores ano após ano. 

Proccssadorcs modemos exigem muito dc um sistema de memória. lanto em termos dc latencia (o atraso nu 
entrega de um operando) quanto de largura dc bunda (a quuntidadc de dados fomecida por unidadc de tempo). 
Infcli/.mcntc. ha um grandę antagonismo entre esses dois aspectos de um sistema dc memória. Muitas tćcnicas para 
aumentar a largura de bunda tambem aumentum a latencia. Por excmplo. as tćcnicas de paralclismo usadas na Mic- 
3 podem ser aplicadus a um sistema de memória quc lenhu varias memórias sobreposlas e elas scrao munipuladas 
com cliciencia. Infelizmentc. assim como na Mic-3, isso rcsulta cm maior luićncia pura operaęóes individuais dc 
memória. A medida que aumcnlam as vclocidadcs dc relógio do proeessador. lica cada vcz mais dificil provcr um 
sistema de memória capaz dc tomecer operandos em um ou dois ciclos de relógio. 

Um modo de alacar esse problemu e providenciar eaches. Como vimos na Seędo 2.2.5, urna cache guarda as 
paluvras de memória usadas mais rcccntcmcntc em urna pequcnu memória rapida, o que acelera o accsso a elas. Se 
urna porcentagcm sulicicntcmcnte grandę das paluvras de memória estivcr na cache. a latencia efetiva dc memória 
pode ler cnorme reduęao. 
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Figara 4-27 

Sistema com tres niveis 
de cache. 


Caciies divtdidas de Insuuęao e dados Cache de niv« de płaca (SRAM) 

Urna das tecnicas mais efetivas para melhorar largura de banda c tumbom a latencia e a utili/aęan de varias 
cachcs. Uma tecnica bas i ca quc funciona com grandę cfctividade ć introduzir urna cache scparada para instruęócs 
e dados. E possivcl ohter muitos bencffcios com cachcs separadas para instruęócs c dados. inuiias vc/cs dcnomina- 
da cache dividida. Em primeiro lugar. as operaęócs de memória podcm ser iniciadas indepcndcntemente em cada 
cache, o que efetivamente dobra a largura de banda do sistema de memória. E essa a ra/do por que faz senlido for- 
necer duas portas dc memóriu separadas. como fizemos na Mic-1: cada porta tern sua própria cache. Notę quc cada 
cache tern acesso independente a memória principal. 

Hoje, muitos sistemas de memória sao mais complicados do quc isso, e uma cache adicional, denorninada 
cache de nivel 2. pode residir entre as caches de instruydo e dados e a memória principal. Na verdadc, pode havcr 
trćs ou mais nfveis dc cache a medida quc sc exigem sistemas de memóriu mais sofisticados. 

Na Figura 4.27 vcmos um sistema com tres mveis de cache. O própno chip da CPU contćm uma pcquena 
cache de instruęao e uma pcquena cache dc dados. em gcral de 16 KB a 64 KB. Entiio ha a cache dc nivcl 2. quc 
nao esta no chip da CPU, mas pode ser incluida no pacoic da CPU próxima ao chip da CPU c conectada a ela por 
um caminho de alta vclocidade. Em gcral essa cache ć unillcada. contcndo um misio de dados e instruęócs. Um 
tamunho ifpico para a cache L2 e 512 KB u 1 MB. A cache de tcrceiro nfvcl esta nu placu do processador c consis- 
tc em ulguns poucos megabytes de SRAM, quc e muito mais nipida do que a memória principal DRAM. As caches 
sao geralmcnte inclusivus. sendo quc o contciido total da cache dc nivcl I esta na cache dc iuvel 2 e todo o contcii- 
do da cache de mvel 2 esti na cache de nivcl 3. 

Caches dependem de dois tipos de endereęo dc localidade paru cumprir seu objetivo. Localidade espadal 6 a 
observaęiio de que localizaęóes dc memória com endcrcęos numericamentc similares u uma localizaędo de memó¬ 
ria reccntcmentc acessada provavclmente serao acessadas no futuro próximo. Caches exploram essa propriedade 
tra/.cndo mais dados do quc os rcquisitados. na expectativa de poder antccipar requisięócs futuras. Localidade tem¬ 
po rai ocorrc quando localizaęóes de memória recentemente acessadas sao acessadas novamcnte. Isso pode ocorrer. 
por excmplo, com localizaęóes de mcmónas proximas ao topo da pilha. ou com instruęócs dentro de um laęo. 
Localidade tcmporul 6 explorada em projetos de cache primariamentc pela da escolha do que descartar quando ocor- 
re uma ausćncia na cache. Muitos algoritmos dc substiluięao dc cache exploram localidade temporal descartando 
as entradas que nao forum acessadas recentemente. 

Todas as caches usam o modelo seguinte. A memória principal e dividida em blocos de tamanho fixo designa- 
dos linhas dc cache. Uma linha de cache tlpica consiste em 4 a 64 bytes consecutivos. As linhas sao numeradas em 
seqiiencia comcęando em 0. portanto. sc tivermos uma linha de 32 bytes de tamanho. u linha 0 vai do byte 0 ao bytc 
31, a linha I do bytc 32 ao 63 e assim pór diante. Em qualquer instantc algumas linhas estuo na cache. Quundo a 
memória e refereneiada. o circuito de controle da cache vcnlica se a palavru refereneiada estd na cache no instantc 
em questao. Caso positivo. o valor quc ali esta pode ser usado. evitando uma viagem ate a memória principal. Se u 
paluvra nao cstiver ali. alguma linha dc entruda e removida da cache e a linha neeessanu e buscada na memória ou 
na cache de nivel mais buixo paru substitui-la. E.\istem muitas variaęóes desse esquema, mas em todas clas a ideia 
e inanter as linhas mais utilizadas na cache o quanto possivcl. paru maximizar o ntimero de refcrćneias ii memóriu 
satisfeitas pela cache. 

Caches de mapeamento direto 

A cache mais simples e conhecida como cache de mapeamento direto. Um exemplo de cache de mapeamen¬ 
to direto dc um só nive! e mostrado nu Figura 4.28(u). Esse exemplo de cache contćm 2.048 entradas. Cuda entra- 
da (linha) nu cache pode conter exuiamente uma linlui de cache da memória principal. Se a linha de cache tiver 32 
bytes de tamanho. paru esse exemplo. a cache pode conter 64 KB. Cada entrada de cache consiste em trćs partes: 

1. O bit Va!id indica se ha ou nao quaisquer dados validos nessa entrada. Quando o sistema e iniciado, todas 
as entradas sao marcadas como invalidas. 

2 . O campo Tag consiste em um tinico valor de 16 bius que identifica u linha de memória correspondentc da 
qual vierum os dados. 

3. O campo Data comem umu cópia dos dados na memória. Esse campo contćm uma linha de cache dc 32 bytes. 
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mapeamento direto. 2 

(b| Endereęo viitual de 1 
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Em uma cache de mapeamento direto. uma delerminada palavra de memória pode ser armazenada cm exata- 
mente um lugar dentro da cache. Dado urn endereęo de memória. ha somenlc um lugar onde procurar por ele na 
cache. Se ele ndo estiver nesse lugar. entao nao es ta na cache. Fara armazenar c recuperar dados da cache. o ende- 
rcęo <5 desmembrado em quatro componcntes. como mostra a Figura 4.28(b): 

1. O campo TAG corresponde aos bits Tag armazenados em uma entrada dc cache. 

2 . O campo LINHA indica qua! entrada de cache contćm os dados correspondentes. se eles estivercm prcsen- 
tes. 

3. O campo WORD informa qual palavra dentro dc uma linha e rcfcrcnciada. 

•*. O campo BYTE cm gerni nao ć usado, mas se for requisitado apenas um byte, ele informa qual byte den¬ 
tro da paiavra ć neccssurio. Paru uma cache quc lornecc apenas pulavras de .12 bits, csse campo scr£ 
sempre 0. 

Quando a CPU produz um endereęo de memória. o hardware cxirai os 11 bits LINHA do endereęo c os utiliza 
para indexa-lo na cache para achar uma das 2.048 entradas. Se cssa entrada for valida, o campo TAG do endereęo 
dc memória e o campo Tag nu entrada da cache sao comparados. Se forem eompau'vcis, a entrada de cache contćm 
a palavra que estd sendo requisitada. uma situaęao denominada presenęa na cache. Se ocorrcr uma prcsenęa na 
cache. uma palavra que esta sendo lida pode ser pega na cache. eliminando a nccessidadc de ir atć a memória. 
Somentc a palavra necessaria e cxtraida da enlrada da cache. O resto da entrada nao e usado. Se a entrada dc cache 
for invalida ou os tags nao forem compaltvcis. a entrada necessaria nao esti na prcsenic cache. uma situaęao deno¬ 
minada ausćncia da cache. Nesse caso, a linha de cache de 32 byles e buscada nu memória e armazenada nu linha 
da cache. substituindo o que Id estava. Contudo. se a linha cache existcnte sofreu modificaęao dcsde que foi carre- 
gada. cla devc ser escrita de volta na memória principal antes de ser descartada. 

A despeito da compiexidadc da dectsao, o accsso a palavra necessaria pode ser extraordinariamentc rapido. 
Assim que o endereęo for conhecido. a exuta localizaęao da palavra ć conhccida se ela esiiver preserue nu cache. 
Isso significa quc ć possfvel ler a palavra da cache e cntrega-la ao processador ao mesmo tempo em que estd sendo 
determinado se cssa ć a palavra corrcta (por comparaędo dc tugs). Portanto. nu verdade o processador reccbe uma 
paiavra da cache simultaneamentc ou possivclmentc ale antes de saber se essa e a palavra requisitada. 

Esse esquema de mupeamento póe linhas de memtiriu consecutivas em linhas de cache consecutivas. De 
fato. ate 64 KB bytes de dados conttguos podem ser armazenados na cache. Contudo. quundo a difcrenęa entre 
o endereęo de duas linhas for exatamente 64 KB (65.536 byles) ou qualqucr multiplo inteiro desse mimero. clas 
nao podem ser armazenadas na cache ao mesmo tempo (porque tćm o mesmo valor LINHA). Por exemplo, se um 
programu accssar dados na localizaęilo X e cm seguida ewceutur uma instruęao que precisu dos dados na loeali- 
. zaęao X +• 65.536 (ou em qualquer outra localizaęao dentro da mesma linha), a segunda instruęao foręara a linha 
dc cache a ser rccarregada. sobrcscrcvcndo o quc la estava. Sc isso acomcccr com certa freqtiencia. pode rcsul- 
tar em mau desempenho. Na vcrdade. o piór comportamcnto possivel de uma cache ć piór do que se nao houves- 
se nenhuma cache. uma vez que cada operaęao de memória cnvolve ler uma linha de cache intcira em vez dc ape- 
nus unia pulavra. 

Caches dc mapeamento direto sao as mais comuns e funcionum com bastanle efetividade. porquc com 
elas ć possfvcl tazer com quc colisóes como a descrita anteriormente ocorrani apenas raramente, ou nunca 
ocorram. Por exemplo. um compilador muito esperto pode levar as colisóes dc cache cm conta quando colo- 
car instruęóes e dados nu memória. Notę que o caso purticular dcscrito nao ocorreria cm um sistema com 
caches de instruęóes e dados separados, porquc as requisięóes conflitantcs seriam atendidas por caches difc- 
rentes. Assim. vcmos um segundo bcncffcio dc ter duas caches em vez de uma: mais I1exibilidade para lidar 
com padróes de memória contlitantes. 
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Caches associativas de conjunto 

Como mcncionamos antcs, muitas linhas diferentes compctem na memória pelas mcsmas posięóes na cachc 
(cache slots). Se urn progroma quc uliliza a cachc da Figura 4.28(a) usar muito palavras nos cndcrcęos 0 c 65.536, 
haveni conflilos constanics porque cada referenda potcncialmenie cxpulsana a oulra da cache. Uma soluęao para 
esse problemu ć permitir duas ou mais linhas em cada entrada de cache. Uma cache com n entradas possfveis para 
cada endereęo ć denominada uma cache associativa de conjunto dc n vias. Uma cache associativa dc conjunto dc 
quatro vias e ilustrada na Figura 4.29. 

Uma cache associativa de conjunto e lnerenlcmente mais complicada do que uma cache de mapcamcnto dire- 
lo porque, embora a linha de cache correta a cxaminar possa ser calculada a partir do endereęo de memória que esta 
sendo rcfcrenciado. um conjunto de n linhas de cache dcve ser verificado para ver se a palavra necessaria estś prc- 
sente. Ainda assim, a experiencia mostra que caches de duas vias e de qualro vias funcionam suficienteinenic bem 
para que esses circuitos extras vaiham a pena. 

A utilizaęiiu dc caches associalivas de conjunto oferecc uma opęao ao projetista. Quando uma nova linha devc 
ser traziila para dentro da cachc, qual dos itens nela presentes deve ser descartado? E ciuro que a dccisao ótima 
rcquer uma olhadcla no futuro, mas um algoritmo muito bom para a maioria das finałidades ć o LRU (Least 
Kccently Used — menos recentemente usada). Esse algoritmo mantem uma ordenaęao de cada conjunto de loca- 
lizaęóes quc poderia ser acessado a partir dc uma determinada localizaęao de memória. Sempra que qualquer das 
linhas presentes ć accssada. ele atualiza u lista, marcando aquela entrada como a mais recentemente acessadu. 
Quando chega a hora de substituir uma entrada. a que esta no finał da lista — a menos recentemente accssada - e 
a dcscartada. 

Levada ao cxtrcmo. uma cache dc 2.048 vias que contem 2.048 linhas de entrada tambćm ć possfvel. Nesse caso, 
todos os endereęos de memória mapciam para um tinico conjunto, portanto a consulta rcqucr comparar o endereęo 
contra todos os 2.048 tags nu cache. Notę que agora cada entrada dcvc ter lógica dc compatibilizaędo de tag. Visto 
quc o campo LINHA tem comprimento 0. o cainpo TAG e o endereęo intciro. cxccto para os campos WORD e BYTE. 
Alćm do mais, quando uma linha de cache ć substitufda. todas as 2.048 locaiizaęóes sao possfveis candidatas a subs- 
tituięao. Monter uma lista ordenuda de 2048 linhas requer muita contabilidade. o que tomu o LRU invidvel. (Lembre- 
sc de que essa lista tem dc ser atualizada a cada operaęao de memória. e nao apenas quando ocorre uma ausencia na 
cache.) O surprcendente e que caches de alto grau de associatividade nao melhoram muito o desempenho em relaęao 
a caches de baixo grau de associatividade sob a maioria das circunstancias e, em alguns casos. ate funcionam piór. 
Por essas razóes, a associatividude de conjunto alćm de quatro vias e relauvamente incomum. 

Por fim, escritas propóem um problema especial para as caches. Quando um processador escrevc uma paiavra 
e a palavra esta na cache, ć óbvio que ele tem de utuaiizar a palavra ou descartar a entrada da cache. Praticamente 
todos os modelos atualizam a cache. Mas, e quanto a atualizar a cópia na memória principal? Essa operaęao pode 
ser adiada ate mais tarde, quando a linha de cache estivcr pronta para ser substituida pelo algoritmo LRU. Essa esco- 
Iha ć diffcil, c nenhuma das opęóes o claramente prefcrivel. A atualizaęao imediata da entrada na memória princi¬ 
pal ć denominada escrita direta (wrile thrnugh ). Essa abordagem geralmentc e mais simplcs dc implementar c 
mais confiavcl, uma vez que a memória esta semprc atualizada — ć util. por cxcmplo, se ocorrcr um erro e for 
necessario recupcrar o estado da memória. Infelizmcnte, tambem requer mais trafego dc escrita para a memória, 
portanto implementaęóes mais sofisticadas tendem a empregar a altemalivu, conhecida como escrita retardada 
I write deferred) ou escrita rctrnativa (wrile back). 

Ha um problema relacionado com as escritas que ć prcciso atacar: c se ocorrcr uma escrita para uma localiza¬ 
ęao quc nao estii na cache no momento cm questiio? Os dados dcvem ser trazidos para denim da cachc ou apenas 
escritos na memória? Mais uma vez. nenhuma das respostas ć semprc u melhor. A maioria dos projetos que retar- 
dam escritas para a memória tende a trazer os dados para dentro da cachc quando ha uma ausencia dc escrita, uma 
ićcnica conhecida como alocaęuo dc escrita. Por oulrc lado, u maioria dos projetos que emprcguin escrita dircta 
tende a nao alocar uma linha em uma escrita porquc essa opęao complica um projeto quc, quunto ao mais. seria sim- 
ples. Alocacao de escrita ć melhor somentc se houver escritas repetidas para a mesma palavra ou palavras difercn- 
tes dentro de uma linha de cache. 


Figura U9 

Cache associativa de 
conjunto de ąuatro 
mas. 
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O desempenho ilu cachc e cntico paru o desempenho ilo sistema porguc a defasagem enire a veiocidade da 
CPU c a vclncidadc da memória e muito grandę. Por conseqiićncia. a pesquisa dc mcUiorcs cstrategias dc cuehing 
ainda e um uipieo inuilo discutido (Alamcldcen e Wood. 2004; Huh et al.. 2004: Min et al.. 2004; Nesbit e Smith, 
2004; e Suh ct al., 2004). 

4.5.2 Previsao de desvio 

Computadores modemos tćm allo grau de paralelismo. O paralelismo da Figura 4.25 tern sete esuigios; com¬ 
putadores de ultima geraęao as ve/es tem paralelismo de de/, estdgios ou ale muis. O paralelismo funeiona melhor 
eom eódigo linear, dc modo que a unidade de busca pode apenas ler palavras consecutivas da memória e as enviar 
para a unidade dc decodifieuęao antes de havcr neeessidadc delas. 

O tinieo problemu eom csse maravilhoso modelo ć que ele nao e nem um pouco realista. Programas nao s3o 
seqiiencias de eódigo linear — estao repletos dc instruęócs de desvio. Considerc as simplcs declaraęóes da Figura 
4 30(a). Urna vanavel, i, e comparada a 0 (provavclmente o teste mais comum na pratica). Dependcndo do resulta- 
do, um dc dois valores possiveis e atribuido a urna outra vunavel, k. 

Urna possivel traduęao para linguagcm de montagem e mostruda na Figura 4.30(b). Estudarcmos linguagem 
dc montagem mais adiante neste Iivro e os detalhes nao sao importantes agora. mas. dcpendendo da maquina c do 
compilador, e provdvel eódigo mais ou menos como o da Figura 4.30(b). A primeira instruęao compara i eom 0. A 
scgunda desvia para o rótulo Elsę (o inicio de urna cldusula elsc) se i nao for 0. A terccira instruęao atribui l a k. A 
quarta instruęao dcsvia para sullar a próxima declaraęuo. O compilador convcnicntcmentc coloeou ali um rótulo, 
Myc/, portanto ha um lugar para o qual desvia. A quinta instruęao auibui 2 a k. 

Nesse caso, devemos observar que duas das cineo instruęócs sao desvios. Alem do mais. urna delas. BNE, e 
um desvio condieional (um desvio que ć tornado se. c somcntc se. alguma condięao for cumprida. nesse caso, que 
os dois operandos da CMP anterior nao sejam iguais). A scqiiencia de eódigo linear mais longa no caso sao duas 
instruęócs. Por conseqiiencia. buscar instruęócs a alla vclocidade para aJimentar o paralelismo e muito diffcil. 

A primeira visla pode parecer que desvios incondicionais, como a instruęao BR Next na Figura 4.3(Kb), nao sao 
um problemu. Alinal, nao ha nenhuma ambigiiidade sobre aonde ir. Por quc a unidade dc busca nao pode apenas 
continuar a ler as instruęócs a partir do endercęo visado (o lugar para onde o desvio levara)? 

O problemu estd na nature/a do paralelismo. Na Figura 4.25, por excmp!o, vcmos que a decodificaęao da ins¬ 
truęao oconc no segundo eslagio. Assim, a unidade de busca tern dc decidir dc onde buscar em seguida antes de 
saber quc lipo de instruęao acabou de obter. Somcntc um ciclo mais tardc cla pode saber quc acabou de pegar um 
desvio incondicional c. a essa altura. ja comcęou a buscar a instruęao que vem após o dcsvio incondicional. Como 
conseqiiencia. um niimero substancial de maquinas com paralelismo (como a UltraSPARC Ul) tem a seguintc pro- 
priedade: a instruęao seguinte a um dcsvio incondicional e executada. ainda quc logicamcnte nao dcvcs.se ser. A 
posięao após um desvio ć denominada posięao de retardo ( delay slot). O Pentium II (e a mdquina usada na Figura 
4.30(b)) nao tem essa propriedadc. mas a complcxidadc interna para conlomar csse problemu costuma ser enorme. 
Um compilador otimi/ador tentard encontrar alguma instruęao titil para colocar na posięao de retardo. mas lrcqiien- 
temente nao ha nada disponfvel, entao ele e foręado a inscrir ali urna instruęao NOP. Assim o programu lica corre- 
to. mas tambem maior e mais lento. 

Por mais que dcsvios incondicionais sejam irritantes, os desvios condicionais sao piores. Alem dc lumbćm 
terem posięóes de retardo, agora a unidade dc busca nao subc dc onde ler atć muito muis adiante no paralelismo. As 
primciras maquinus com paralelismo apenas protclavum atć saberem se o desvio seria tornado ou nao. Urna prote- 
laęao dc trćs ou quauo cieku em todo desvio condieional. em espccial se 20% das instruęóes forem desvios condi¬ 
cionais, arrasa o desempenho. 

Por conscqiióncia. o quc a maioria das mdquinas faz quando chega a um dcsvio condieional ć prevcr se cla vai 
ser tornada ou nao. Seria maravilhoso se pudćssemos apenas ligar u ma bola de cristal cm um cncaixc PCI livrc para 
ajudar na prcvisao. mas atć agora essa ubordagem nao deu frutos. 

Na lalta de tal pcnlenco. forum arqui(etadas varias maneirus dc fazer a prcvisao. Um modo muito simplcs ć o 
seguintc: considerc quc todos os dcsvios condicionais para tras scrao tomados e indos os dcsvios para a trenie nao 
scrao tomados. O racioctnio que fundamenta a primeira parte ć que os dcsvios para tr:is costumam estar toeuliza- 
dos no finał de um laęo. A maioria dos taęos e executada varias vezes. portanto, prcver que um desvio de volta ao 
inicio do laęo sera tornado, cm geral e um bom pulpitu. 

A scgunda parte ć mais tumuhuada. Alguns desvios para a frenie ocorrem quando sao detectadas condięóes de 
erro em software (por exemplo. um arquivo ndo pode ser aberto). Erros sao raitis, portanto a maioria dos desvios 
associados a eles nao sóo tomados. E claro que ha urna grandę quantidude de desvios para a frente que nao estao 
relacionados com o tratamento de erros. portanto a tuxa de sucesso nao e tao boa quanto a dos dcsvios para tras. 
Embora nao seja fanlastica. essa regra e, no ininimo. melhor do quc nada 



Flqnra 4.30 

(a| Fragmento de 
programa.(b| Sua 
traduęao para uma 
linguagem de 
montagem genenca. 


if(i-0) 

kał; 


CMP i,0 
BNE Elsę 
Then: MOV k,1 
BRNext 
Elsa: MOV k,2 

Next: 

(b) 


. compara i com 0 
: desvie para Elsę se n&o for Igual 
, mova 1 para k 

; desvio incondicional para Noxt 
; mova 2 para k 



(a) 


i] 


Sc urn dcsvio for prcvisto corrctamcntc. nao ha nada dc especial a fazcr. A oxccuęao apcnas continua no cndc- 
reęo-aWo. O problemu comeęa quando o dcsvio e erroneamente prcvisto. Imuginur para onde ir e ir para lii nao ć 
diffcil. A parte diffcil ć desfazer as instruęoos que ja forum cxecuładas c nao deveriam ter sido. 

Ha dois modus de resolver isso. O primeiro e permitir que instnięócs buscadas após um desvio condicional 
previsto exccute atć que tentem mudar o estado da mdquina (por exemplo, armazenando cm um registrador). Em 
vez de sobrcserever o registrador, o valor calculado e colocado em um registrador transitório (sccreto) e somente 
copiado para o registrador rcal após saber quc a prcvisao estava corrcia. O segundo modo e registrar o valor de qual- 
quer registrador que estd prestes a ser sobrcscrito — por exemplo. em um registrador iransitório seereto —, dc modo 
que a miiquina possa ser levada de volta ao estado em que estava no momentu em quc tomou o dcsvio mai previs- 
to. Ambas as soluęSes sao complexas e requercm eontabilidade de m'vcl industrial para conscguir eletud-las corre- 
ramente. Alćm do mais. sc um segundo dcsvio condicional for atiugido antes de sc saber se a prcvisao do primeiro 
estava correta, as coisas pudem ficar realinente complicadas. 

Prevlsao dinamica de desvlos 

Claro que previsócs cxatas tćm grandę valor. uma vez que permitem que a CPU funeione a toda velocidade. 
Como conseqiiencia. grandę parte da pesquisa em curso tern como objelivo melhorar algoritmos dc previsao de des- 
vio iChen et al„ 2003: Falcon et al„ 2004; Jimenez. 2003 e Parikh et al.. 2004). Uma abordagem e a CPU manter 
uma tabela histórica (em hardware especial) na qual registru desvios condicionais a medida que eles ocorrem, de 
modo que eles podcm ser eonsuitados quando oeorrerem novamente. A versao mais simples desse esqucma e mos- 
trada na Figura 4.31 (a). Nessc exctnplo, a tabela histórica contćm uma linha para cuda instruęao dc dcsvio condi¬ 
cional. A linha contćm o endereęo da instruęao de desvio junto com um bit quc informa sc cle foi tornado da ulti¬ 
ma vez quc foi executado. Usando esse csquema, a prcvisao e simplesmente que o desvio ira para o mesmo lugar 
quc foi da ultima vez. Se a prcvisao estivcr errada, o bit na tabela histórica e alterado. 

Hd diversos modos dc organizar a tabela histórica. Na verdadc. sao cxatamentc os mesmos modos usados para 
organizar uma cachc. Considcre uma maquina com instruęóes de 32 bits que sao alinhadas por palavra dc modo que 
os 2 bits de ordem baixa de cada endereęo de memória sao 00. Com um tabela histórica dc mapeamento direto que 
contćm 2" entradas, os n + 2 bits de ordem baixa de uma instruęao de desvio podcm ser extraidos e dcslocados 2 
bits para a direita. Esse numero dc n bits pode ser usado como um tndicc para a tabela histórica onde e fcita uma 
vcrilieaęao para ver sc o endereęo ali armazenado ć compatfvel com o endereęo do desvio. 

Como acontcce com uma cachc. nao ha neccssidade dc armazenar os n r 2 bits de ordem haixa, portanto eles 
p<xlem ser omitidos, isto ć. somente os bits mais altos dc endereęo — o lag — siio armazenados. Se houver com- 
patibilidade. ou seja, uma presenęa na tabela, o bit de prcvisao ć usado para prevcr o desvio. Se o tag errado estiver 
prcscntc ou a entrada for invalida, ocorre uma ausćncia na tabela (ou niło hii compatibilidade) exutamentc como na 
cache. Nesse caso, pode ser usada a regra do desvio para a frente e para triis. 

Se a tabela histórica de desvio tivcr. por exemplo. 4.0% entradas, ent3o os desvios nos endercęos 0. 16384. 
32768. ... serao conflitantcs, problemu amilogo ao que cncontramos na cache. A mesma soluęao ć possfvel: uma 
entrada associativa dc duas vias, quatro vias ou n vias. Assim como para a cachc, o caso limite e uma unica entra¬ 
da associaliva de n vias, quc requcr associatividadc total dc eonsulla. 

Dada uma tabela de tamanho suliciente c suliciente ussociatividadc. esse esquema lunciona bem nu maioriu 
das siluaęóes. Contudo, sempre ocorre um problemu sistcmdtico. Quando por lim se atingir a salda dc um laęo. ć 
feita uma prcvisao errada para o desvio e. piór ainda. a mii prcvisao mudani o bit na tabela histórica para indicar 
urna futura previsao de 'nenhum desvio’. Na próxima vez que se entrar no laęo. havcrd uma prcvisao errada dc des- 
vio ao finał da primcira itcraęao. Se o laęo cstivcr dentro de um laęo cxtemo. ou dentro de um procedimcnto quc ć 
chamado muitas vczes, esse erro pode acontccer com freqilencia. 

Para eliminar essa mii previsao. podcmos dar uma segunda chancc a entrada da tabela. Por esse mćtodo, a pre- 
visao só e allcrada após duas previsóes ineoiretas. Essa abordagem rcqucr dois bits de prcvisao na tabela histórica. 
um para aquilo que o desvio - deve' lazer e um para o quc ela fez da ultima vez, como mostra a Figura 4.3l(b). 

Um modo ligeiramente diferente de considerar esse algoritmo e ve-lo como uma miiquina de estado Unito de 
quatro estados. como mostra a Figura 4.32. Apos uma serie dc previsócs sucesswas certas de nenhum dcsvio'. a 
FSM eslarii no estado (X) e prevcra nenhum dcsvio' tambćtn na próxima vcz. Só sc essa previsao estiver errada ela 
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Figura 4.32 

Móąuina de estado 
flnito de 2 bits para 
previsao de desvio. 




passara agom para o estado 11 e prevera dcsvios o tempo todo. Na verdadc, o bit da extrema esquerda do estado ć 
a prcvisao e o bit da estrema direita e o quc o dcsvio fez da ultima vez. Embora esse projeto use somente 2 bits para 
o histórico. um projeto que monitora 4 ou 8 bits históricos tam bom e posstvel. 

Essa nao ć nossa primeira FSM. A Figura 4.21 tambćm era urna FSM. Na realidadc, todos os nossos micro- 
programas podem ser considenados FSMs. urna vez que cada linlia representa um estado especffico no qual a maqui- 
na pode estar. com transięóes bem definidas para um eonjunto finito de outros estados. FSMs sao amplamente usa- 
das em todos os aspectos do projeto de hardware. 

Me aqui, eonsideramos que o alvo de cada desvio condicional era conhecido, ou como um endercęo cxplfci- 
to para o qual desviar (contido dentro da própria instmęao), ou como um deslocamcnto relalivo com referenda u 
mstruęao corrente (isto ć. um ntimero com sinal para adicionar ao contador dc programa). Muitas vezes essa supo- 
sięao e valida, mas algumas instruęóes dc desvio calculam o endcreęo-alvo efetuando aritmćtica nos registradores 
e entiio dirigem-sc para aquele endercęo. Mcsmo que a FSM da Figura 4.32 preveja com cxatidao quc o desvio sera 
tornado, essa prcvisao dc nada serve se o endcreęo-alvo for dcsconhecido. Um modo de lidar com essa situaędo ć 
armazenar na tabela histórica o endereęo ao qual o desvio sc dirigiu da ultima vez, como mostra a Figura 4.3 l(c). 
Desse modo. se a tabela informar quc da ultima vcz quc o desvio no endercęo 516 foi tornado ele foi para o ende¬ 
reęo 4000, se a prcvisao agora for 'dcsvio' a suposięao de trabalho sera um desvio para 4000 novamentc. 

Urna abordagem diferente para a prcvisao dc dcsvio ć monitorar sc os tillimos k dcsvios condicionais encon- 
trados foram tomados, independentemente dc quais instruęóes eram. Esse ntimero dc k bits, manlido no registra- 
dor de deslocamento da tabela histórica e entao comparado em paralelo com todas as entradas de urna tabela his¬ 
tórica que tenham urna chave de k bits e se ocorrcr um sucesso, u prcvisao encontrada sera usada. Por surpreendente 
quc seja. essa tćcnica funciona bastante bem. 


Prevlsao estatica de desvlo 

Todas as tćcnicas de previsuo de desvio discutidas atć agora sao dinśimicas, isto e, siło realizadas em tempo dc 
exccuęao. durante a exeeuęśio do programa. Elas tambćm se adaptam ao comportamenio corrente do programa, o 
quc e bom. A desvanlagem e quc elas requercm hardware cspecializado e caro e muita complexidade no chip. 

Um modo diferentc de funcionar ć fazer com quc o compilador ajude. Quando o compiludor vir urna declara- 
ęao como 

tor (i =0; i < 1000000; i++) {...} 

ele sabe muito bem que o desvio no tinal do laęo sera tornado quase toda vez. Se ao menos houves.se um mcio de 
ele inlórmur o hardware, muito esforęo seria poupado. 

Embora soja urna alteraęao de ;irquitetura. e mio apenas urna questao de implcmcntaęao. algumas maquinus. 
como a UltraSPARC' III. tfim um segundn eonjunto tle instruęóes dc desvio condicional. :tlćm das normais. que siło 
neeessarias para compatibilidadc. As novas contćm um bit no qual o compilador pode espeeificar que ele acha que 
o desvio serii tornado (ou tiao tonuido). Quando inna dessas e encontrada. a unidadc de busca apenas laz o quc Ihc 
disseram paru tazer. Alćm do tnais, nao hu neccssidade dc desperdicar precioso espuęo da tabela histórica dc des- 
vios com essas instruęóes, reduzindo assim o conOito quc ali acontccc. 

Por lim. nossa ultima tćcnica dc previsao de desvio e baseada na dctenninuęiio dc perlił (Fishcr e 
Freudenberger. 1992). Essa tambćm e urna tćcnica cstdtica. mas em vez de fazer o compilador tentar adivinhar quais 
dcsvios serao tomados. c quais nao, o programa e executado (normalmcntc em um simuladorl e o comportamenio 
do dcsvio ć capturado. Essa tnformaęao e alimentada no compilador. que entao usa as instnięóes de desvu> condi¬ 
cional especial para informar ao hardware o quc ele dcvc fazer. 


4.5.3 Execucao fora de ordem e renomeacao de registrador 

Grandę parte das CPUs moderaus tern paralelismo e tambćm siio supercscalarcs, como mostra a Figura 2.6. 
Em gcral. isso signilica quc ha urna unidadc de busca quc retira palavras dc instruęóo da memória antes que elas 
sejam neeessarias. para alimentar urna unidadc de decoiiificaęao. A unidade dc decodiłicaęao emitc as instruęóes 
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Jecodificadas para as uniiiades funcionais adequadas para execuę3o. Em alguns casos ela pode desmembrar instni- 
ęóes individuais cm tnicroopcraęóes antes de emiti-las para as unidades funcionais, dependendo do quc as unida- 
dcs funcionais podcm fazer. 

Ciuro que o projeto da maquina e mais simplcs se as instruęóes forem executadas na ordem cm que sao bus- 
cadas (eonsiderando, por enquanto, que o algoritmo de previs3o de dcsvio nunca faęa uma prcvisao erradaj. 
Contudo, a execuęao em ordem nem semprc rcsulta om desempenho ótimo devido is dcpcndfincias cntre instruęócs. 
Se uma instruęiio precisar de urn valor calculado pela instruęao anterior. a segunda nao pode comcęar a cxccutar atć 
que a primeira tenha produ/.ido o valor necessdrio. Nessa situaęiio (uma dependfincia RAW), a segunda instruęao 
tem de esperar. Tambem exisiem outros tipos dc dcpendencia, como veremos em brevc. 

Em uma tentativa de contomar esses problemas e produzir melhor desempenho, algumas CPUs permitem sal- 
tar instruęóes dependentes para chegar a instruęócs futuras que nao sao dependentes. Nao ć prcciso dizer quc o algo¬ 
ritmo de escalonamenio dc instruęócs intemas usado devc causar o mesmo efcito que causaria sc o programa fosse 
executado na ordem escrita. Agora dcmonstraremos como a reordcnuęao de instruęóes funciona usando um excm- 
plo detalhado. 

Para ilustrar a naturc/.a do problemu, comcęaremos com uma iniiquina quc sempre cmite instruęóes na ordem 
do programu e tambem requer quc sua exccuęao seju concluida na ordem do programu. A signifieancia dessa ulti¬ 
ma cxigencia Ikara daru mais udiante. 

Nosso cxemplo de mdquina tem oito registradores visfveis para o prograraador, RO atć R7. Todas as instru¬ 
ęóes aritmćticas usatn tres registradores: dois para os operandos e um para o resultado, igual a Mic-4. Vamos con- 
siderar que. se uma instruęao for decodificada no ciclo n, a exccuęao inicia no ciclo n + 1. Para uma instruęao 
simples, como uma adięao ou subtraęao, a escrita retroativa no registrador de destino ocorre ao finał do ciclo n 
+ 2. Para umu instruęao mais complicada, como uma multiplicaęao, a escrita retroativa ocorre ao finał do ciclo 
n -l- 3. Para tomar o excmplo realista, permitiremos que a unidadc de dccodificaęao emita atć duas instruęóes por 
ciclo de relógio. Ha viirias CPUs escalares comerciais quc podcm emitir quatro ou atć seis instruęócs por ciclo 
dc relógio. 

Nosso cxemplo de seqiiencia de execuęao e mostrado na Tabela 4.11. Nessc caso, u primeira coluna dd o 
niimero do ciclo e a segunda dd o numero da instruęao. A terccira coluna rclaciona a instruęao decodificada. A quar- 
ta informa qual instruęao estd sendo cmitida com um mdximo de duas por ciclo de relógio. A quinta informa qual 
instruęao foi retirada, ou concluida. Lembre-se de que nessc excmplo es lamus cxigindo emissao em ordem. bem 
como conclusao em ordem. portanto a instruęao k + I nao pode ser cmitida atć que a instruęao k tenha sido emiti- 
da e a instruęao k + I nao pode ser retirada, ou seja, nao pode ser escrita retroativamente no registrador de destino 
atć que a instruęao k tenha sido retirada. As outras 16 colunas sao discutidas logo adiante. 

Após decodificar a instruęao. a unidadc de dccodificaęao tem de decidir se pode ou niio emiti-la imedintamen- 
te. Para tomar essa decisao, a unidadc dc dccodificaęao precisa conheccr o estado de todos os registradores. Se. por 
cxcmplo. a instruęao corrcnte precisar dc um registrador cujo valor ainda niio foi calculado, ela nao pode ser emi- 
tida e a CPU dcve protelar. 

A utilizaęao do registrador serl monitorada com um ilispositivo denominado tabela de pontuaęao. cncontrado 
pela primeira vez no CDC 6600. A tabela tem um pequeno contador para cada registrador que informa quantas vezcs 
um determinado registrador ć usado como uma fonte por instruęócs que estao sendo exccutadas no momento em 
qucstóo. Se. por excmplo. o numero maximo de instruęóes quc podem ser executadas ao mesmo tempo for 15. entiio 
um contador de 4 bits sera suficiente. Quando uma instruęao e emitida, as entradas da tabela de pontuaęao para scus 
registradores de operandos siło inerementadas. Quando uma instruęiio ć retirada, as entradas sao decrementadas. 

A tabela de pontuaęóo tambem tem contadores para monitorar os registradores usados como destino. Uma vez 
que si? e permitida uma escrita por vez. esses contadores podem ter um bit de largura. As 16 colunas da cxtrcmu 
direita na Tabela 4.11 most ram a tabela dc pontuaęao. 

Em mdquinas rcais. a tabela tambem monitora a utilizaęao da unidadc funciona). para evitar emitir uma ins¬ 
truęiio para a qual nao ha nenhuma unidadc funciona! disponivel. Por simplicidadc. considcrarcmos quc ha sem¬ 
prc uma unidadc funcional adcquada disponivcl. portanto. niio moslrarcmos as unidades funcionais na tabela dc 
pontuaęao. 

A primeira linha da Tabela 4.11 mostra 11 (instruęiio 1). quc multiplica RO por R1 c coloca o resultado em R3. 
Uma vez que nenhum desses registradores estd em uso ainda, a instruęiio ć emitida e a tabela dc pontuaęao e ałun- 
lizada para refletir que RO c R1 estao sendo lidos. e R3 estd sendo escrito. Nenhuma instruęao subseqiicnte pode 
cscrcvcr paru qualqucr um dclcs. nem ptxlc ler R3. atć que 11 seja retirada. Visto quc essa instruęao ć umu multipli¬ 
caęao. ela serii concluida no finał do ciclo 4. Os valorcs da tabela dc pontuaęao mostrados cm cada linha refletem 
scus estados após a emissao da instruęiio quc estd nuquela linha. Entradas cm branco sao Os. 

Uma vcz que nosso excmplo e uma maquina supcrescalar quc pode emitir duas instruęóes por ciclo, a segun¬ 
da instruęiio (12) e emitida durante o ciclo 1. Ela soma RO c R2 e armazena o resultado em R4. Para ver se essa ins¬ 
truęiio pode ser cmitida. sao aplicadas as seguintes regras: 

1. Se qualquer operando estiver sendo escrito. nao emita (dependfincia RAW). 

2 . Sc o registrador dc resultado estiver sendo lido. niio emita ldcpendencia WAR). 

3. Sc o registrador de resultado estiver sendo escrito, n3o emita (dependfincia WAW). 


ĆL 
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Ja vimos dcpendćncius RAW. quc ocorrem quando urna instruęao precisa usar como fontu um rcsuitado quc 
urna instruęao prćvia ainda niio produziu. As oulras duas dcpendćneias sao munos serius — sao. cm esseneia. con- 
flitos dc recursos. Em urna dcpcndenda WAR (Wrile A ller Rcad — escrita após lei tura) urna instruęao esta ten- 
tando sobrcscrcvcr um registrador quc urna instruęao anterior pode nao ter terminado dc ler ainda. Urna dependen 
da WAW (Write After Writc — escrita após cscriui) ć similar. Muitas vczes essas podcm ser cvitadas obrtgando a 
segunda instruęao a eolocur seus rcsultados cm algum outro higar. talvcz temporariamcntc. Sc ndo cxistir nenhuma 
dessas trćs dcpcndćncias citadas c a unidadc funciunal dc quc u instruęao ncccssita estivcr disponivci. a instruęao ć 
cmitida. Nesse caso, 12 usa um registrador (RO) que estsi sendo lido por unia instruęao pendentu, mas essa sobrepo- 
sięao ó permitida. portanlo 12 e cmitida. Dc modo semclhantc. (3 e cmitida durantc o ciclo 2. 

Agora chcgamos .i 14. quc precisa usar R4. Infclizmcntc. vcmos pcla linha 3. quc R4 esta sendo escrita. Nesse 
caso. lentos urna dcpendćncia RAW. portanlo. a unidadc dc decodificaęao protcla ale quc R4 tlquc dispontvcl. 
Durantc a prolclaęao. a unidadc dc dccodificaędo para dc relirar instruęóes da unidadc dc busca. Quando os buffers 
intcmos da unidadc dc busca estivcrem cheios, clu para dc fazer a busca antccipada. 

Valc a pena notar que a próxima instruęao na ordem do programu, 15, ndo tern conllitos com nenhuma das ins- 
truęóes pendentes. Ela poderia ter sido decodilicada c cmitida se nSu fosse pelo fato dc esse prpjeto cxigir que as 
instruędes sejum emitidas cm ordem. 

Agora vamos vcr o que acontece durantc o ciclo 3. 12. por ser urna adięao (dois ciclos), termina no finał do 
ciclo 3. Infclizmcntc. ela nao pode ser retirada (c liberar R4 para 14). Por que nao? A r.izao ć que esse projeto tam- 
bćm requcr retirada cm ordem. Por que? Que mai poderia acontccer por fazer o annazenamento em R4 agora e 
marcii-lo como disponivcl? 

A resposta ć sutil. mus importante. Suponhu que instruęóes pudessem concluir fora de ordem. Entao. se ocor- 
resse urna interrupęao, seria muilo dificil salvar o estado da maquina dc modo que cle pudesse ser restaurado mais 
tardc. Em purticular. nao seria possivcl afirmar quc todas as instruęóes ale algum endcrcęo tinham sido executadas 
e quc todas as instruęóes depois dele. nao. Essa caracteristica e denominada interrupęao cxata c e desejiivel cm 


Taoela 4.n CPU superescalar com emtssao em ordem e conclusao em ordem. 











uma CPU (Moudgill c Vassiliadis, 1996). A rclirada fora dc ordem toma as intcrrupęócs incxatas. c d por isso que 
ulgumas maquinas rcquerem conclusao dc instruęao em ordem. 

Voltando ao nosso excmpio. no finał do ciclo 4. todas as trfis instruęóes pendcntcs podcm ser rctiradas. por- 
lanto 14 pode ser finalmente cmitida no cłclo 5. junto com a 15 recdm-dccodificada. Scmpre que uma instruęao ć 
ret i rada. a unidade de decodificaęao tern de verificar para ver se ha uma instruęao protclada quc agora pode ser 
emitida. 

No ciclo 6.16 e protelada por quc cla precisa escrever para R1 c R1 estd ocupado. Por firn. ela d iniciada no 
ciclo 9. A scq(lencia inteira dc oito instruęóes lcva 18 ciclos para ser concluida dcvido a muitas dcpcndćncias. ainda 
que o hardware seja capa/ de emilir duas instruęóes em cada ciclo. Entretanto, notę quc. ao ler a coluna Emil. da 
Tabela 4.11 dc ciina para baixo. todas as instruęóes forom emitidas em ordem. Da mesma forma, a coluna Rei. mos- 
tra que elas tambem forum rctiradas na ordem. 

Agora vamos considerar urn projeto altemativo: execuęao fora de ordem. Nesse projeto, instruęóes podcm ser 
emitidas fora de ordem c tambem podetn ser rctiradas fora dc ordem. A mesma scqiiencia de oito instruęóes e tnos- 
trada na Tabela 4.12, só que agora s3o permitidas cmissao fora de ordem e rclirada fora dc ordem. 

A primeira difercnęa ocorre no ciclo 3. Ainda que 14 tenha sido protelada. temos permissao para Uicodificar e 
emitir 15 uma vez que ela nao conflita com qualqucr instruęao pcndcntc. Contudo, saltar instruęóes causa um novo 
problemu. Suponha que 15 tenha usado um operando calculado pcla instruęao quc foi saltada. 14. Com a tabela dc 
pontuaęao corrcnte, nao terfainos notado isso. Por conscqiićncia, temos dc estender a tabela de pontuaęao para 
monilorar os anna/cnamcntos feitos por instruęóes quc forom saltadas. Isso pode ser feito adicionando um segun- 
do um segundo mapa de bits, I bit por registrador. para monitorar armazenamenios feitos por instruęóes proteladas. 
(Esscs contadorcs nao sao mostrados na figura.) Agoro, a regra dc etnissao de instruęóes tern de ser estendida para 
evitar a cmissdo de qualqucr instruęao quc tenha um operando escalonado paro ser armazenado por uma instruęao 
que vcio antes. mus que foi saltada. 

Vamos voltar e cxaminar 16,17 e 18 na Tabela 4.11. Nela, vcmos que 16 calcula um valor em R1 que e usado 
por 17. Contudo. vemos tambem que o valor nunca e usado novamcnte porque 18 sobrescrcvc R1. Nao ha nenhuma 
raziło rcal paro usar R1 como o tugar paro conter o resultado de 16. Piór ainda, R1 ć uma pćssima escolha de rcgis- 
trodor inlcrmediario. embora seja perfeitamente razotWel para um compilador ou programudor acostumado com a 
ideia dc execuęao seqiicncial sem nenhuma sobrcposięao de instruęóes. 


Tabela 4.12 Operaęao de uma CPU superescałar com emissao de instruęao fora de ordem e 
conclusao de instruęao fora de ordem. 
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Na Tabela 4.12 introduzimos uma nova tecnica para resolver esse problema: registrador de renomeaęao. A 
sabia unidade de dccodificaęao iransferc a utilizaęao de HI em 16 (ciclo 3) e 17 (cielo 4) para um rcgisirador secrc- 
to. SI, que nao e visfvel para o programador. Agora 16 pode ser emitida ao raesmo tempo que 15. CPUs modcmas 
eostumam ter dezenas de registradores secretos para usar eom renomeaęao de registrador. Essa tecnica muitas vezes 
pode eliminar dcpcndencius WAR e WAW. 

Em 18. usamos novamente renomeaęao de registrador. Desta vez R1 e renomeado para S2. de modo que a adi- 
ęao pode ser iniciada antes que R1 esteja livre, no linal do eiclo 6. Se acaso o resultado realmcnte tiver de estar em 
R1 desta vez. o conteiido de S2 sempre pode ser copiado de volta para Id a tempo. Melhor ainda. todas as futuras 
instruęóes que precisem dcle podem ter suas fontes renomeadas para o registrador onde elas realmente estao arma- 
/cnadas. Scja como for, desse modo a adięao 18 conseguiu comeęar mais ccdo. 

Em muitas muquinas reais a renomeaędo estti profundamente embutida no modo como os registradores sao 
organizudos. Ha muitos registradores secretos c uma tabela que mapcia os registradores visfvcis ao programador 
para os registradores secretos. Assim. o registrador real que estti sendo usado para, por cxcmplo, RO, e localizado 
c.\aminando a entrada 0 dessa tabela de mapeamento. Desse modo, nao cxistc nenhum rcgisirador real RO, mas ape- 
nas uma vinculaęao entre o nome RO e um dos registradores secretos. Essa vinculaęao muda muitas vczes durante 
a cxecuęao para cvitar dcpendencias. 

Notę quc. na Tabela 4.12. quando lenios u quarta coluna de cima para baixo, as instruęóes nao fortun cmitidas 
em ordem. Nem foram retiradas cm ordem. A conclusao desse excmplo ć simplcs: usando execuęao fora de ordcm 
e renomeaęao dc registrador. podemos acelerar o cdlculo por um fator de dois. 

4.5.4 Execuęao especulativa 

Na seęao anterior introduzimos o conccilo dc reordenaęao de instruęóes de modo a inelhorar o desempenho. 
Embora nao o tenhamos mcncionado expiicitamcnte. o foco estava sobrc a reordenaęao de instruęóes dcnlro de um 
unico bloco bdsico. Agora estti na hora dc cxaminar essa questao mais dc perto. 

Programas de computador podem ser desmembrados em blocus bdsicos, sendo quc cuda bloco bdsico consis- 
te em uma seqtićncia linear dc código com um ponto de entrada no infcio e uma saida no Gnał. Um bloco bdsico 
nao contćm qualquer estrutura dc controlc, por excmplo. declaraęóes if ou dcclaraęóes while. de modo que sua tra- 
duęao para linguagem de mtiquina nao contćm nenhum desvio. Os blocos bdsicos sao conectados por declaraęóes 
de controlc. 

Um pro grama nessa forma pode ser representado por um grdiico orientado, como rnostra a Figura 4.33. Nesse 
exemplo caiculamos as somas dos cubos dos inteiros pares e fmpares ate algum limite e as acumulamos em even- 
sum e fuklsum. respeelivamente. Dentro de coda bloco bdsico, as tćcnicas de reordenaędo da seęao anterior tuncio- 
nam bem. 

O problema e que a maioria dos blocos bdsicos e curta e ndo ha paralelismo suliciente para explord-los efe- 
tivamcnte. Por conseqiićncia. a próxima ctapa e permitir quc a reordenaęao cruzc as frontciras de blocos bdsicos 
na tcntativa dc prcencher todas as posięóes de emissdo. Os maiores ganhos ocorrem quando uma operaędo poten- 
cialmente lenta pode ser passada para cima no grdiico para ser iniciada mais cedo. Essa instruęao pode ser uma 
instruętiu LOAD. uma operaędo de ponto flutuantc ou ate mesmo o infcio de uma longa endeia de depcndencia. A 
transferćncia dc um código para cima atravćs de um desvio ć denominada elevaęao. 

Imagine quc na Figura 4.33 todas as varióveis fossem mantidas em registradores. exccto evensum c oddsum, 
por lalla de registradores. Portanto, talvez tivessc sentido passar suas instruęSes LOAD para o lopo do laęo antes de 
calcular k. para iniciu-las ccdo. de modo quc as valores estarao disponfvcis quando necessarios. Claro quc somen- 
te uma delas sera neccssaria em cada iteraędo. portanto a outra LOAD serd despcrdięada. mas se a cache e a memó- 
citi tivercm paralelismo e houver posięóes de cmissao disponfveis. talvez ainda p<xleria valcr a pena fazer isso. A 
execuęao de ctkligo antes tnesmo de saber se cle sera ncccssdrio ć denominada execuęao especulativa. U sur essa 
tćcnica requer suptirte do compilador e do hardware, bem como algumas cxtensóes na arquitetura. Normalmentc. 





Hnura 4.33 
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reordenar instruęóes atravessando fronteiras de blocos bńsicos esti alem da capacidade do hardware, portanto o 

• compilador deve movcr as instruęóes explicitamente. 

A execuędo espeeulativa iniroduz alguns pmhlemas interessantes. Um deles ć que nenhuma das instruęóes 
cspcculativas tem resuitados irrcvogaveis porquc mais tardc pode-se descobrir quc das nao dcveriain ter sido cxe- 
I eutadas. Na Figura 4.33, i bom buscar evensum c oddsum, e tambćra e bom efetuar a adięao tao logo k esteja dis- 

ponivel (mesrno anles da dcclaraędo l(), mas nao e bom armazenar os resuitados de volta na memória. Em scqiien- 
cias de código mais eomplicadas. um modo comum de cviiar que o código cspecuiativo sobrcscreva registradores 
I antes dc se saber se isso e desejado ć renomear todos os registradores de destino usados pelo código espeeulativo. 

Desse modo. apenas registradores temponirios sao modifteados. portanto nao ha nenhum problemu se. attnal, 
o código nao for necessdrio. Se o código for necessario, os registradores transitórios sao copiados para os vcrdadci- 
| ros registradores de destino. Como voce pode imaginur. a tabela de pontuaęao para monitorar tudo isso nao e sim- 

plcs. mas, eom hardware suficicntc, p<xlc ser teita. 

1 Entretanto. ha um outro problemu inlroduzido pelo código especulativo que nao pode ser rcsolvido por reno- 

I mcaęuo de rcgistnidor. O que aconlecc se uma instruęao executada por cspeculaęao causar urna cxccęao7 Um exem- 

plo dolomso. mas nao fatal, e uma instruęao LOAD que causa uma ausencia da cache em uma maquina cuja linha 
1 de cache e de grandę tamanho (por exempio, 256 bytes) e a memória ć muito mais lenta do que a CPU e a cache. 

I Se uma LOAO quc e reulmentc necessdria lizer a maquinu parar de vcz durantc muitos ciclos enquanto a linha 

de cache estd sendo carregada, bom. SSo coisas da vida, jd que a paluvra ć necessdria. Contudo. protclar a mdquina 

• para buscar uma palavra que. atinal, nao e necessdria, e contraproduccnte. Muitas dessas 'atimizaęóes' podem fazer 

I com quc u CPU fique mais lenta do que se ela nao as tivcssc. Sc u maquina tivcr memória virtual, que ć discutida 

no Capitulo 6, uma LOAD cspeculativa pode atć causar uma falta dc pagina, o quc rcquer uma operaędo de disco 
I para trozer u pagina necessdria. Fulsas faitas dc pagina podern causar um efeito tcrn'vcl sobre o desempenho. por- 

• tanto 6 importantc cvitd-las. 

Uma soluęao prcscnte cm vdrias maquinas modcmas e inserir uma instruęao SPECULATIVE-LOAD que tentu 

• buscar a palavru na cachc. mas. se ela ndo cstiver la. desistc. Se o vu!or estiver na cache quando for rcalmcnte neces- 

■ sdrio, ele pode ser usado ou nao: caso ndo esteja, o hardware tern dc entrar em cena c obtć-lo imcdiutamentc. Se o 

vulor se revclar nao necessdrio, nada dc ruim aconlcccu na ausćncia da cachc. 

I Uma situaęao muito piór pode ser ilustrada com a seguinle dcclurnędo: 

| If (x > 0) z = y/x; 

I ondc r, vc: sao varidveis de ponto tlutuante. Suponha que as varidveis sdo todas buscadas com antcced&ncia para 

registradores e quc adivisuo com ponto flutuante (umaoperaędo lenta) e clevada para acima do tesle it. Infelizmente, 
x 6 0 c a exceęao resultantc. isto e. a divisdo por zero, encerra o programu. O resultado lfquido e que a cspeculaęao 
| causou a falha dc um programu correto. .Ainda piór, o programador inseriu um código explfcito para evitar essa 

situaęao c. ainda assim. ela ucontcccu. Provuvelmcnte o programador nao ficard feliz. com isso. 

• Uma soluęao possivcl ć ter versóes especiais de instruęóes quc p«)dcnam causar exceęóes. Alćm disso. um bit 

I denominudo bit cnvenenadu e udicionado a cada registrador. Quando uma instruęao cspeculativa cspecial falhur. 

em vcz de causar uma cxccędo, ela ajusta o bit envenenado no registrador de resultado. Se mais adiante uma instru- 
I ędo normal chegar a esse registrador, a armadilha ocorrc nesse momento, como deveria. Contudo. se o resultado 

I nunca 6 usado. o bit envenenado mais cedo ou mais tarde ć eliminado e ndo hd dano ulgum. 

, 4.6 Exemplos do nivel de microarąuitetura 

| Nesta scęuo, mostrarcmos cxcmplos resumidos dc ues processadores dc altu tecnologia. mostrando como eles 

ctnprcgam os conccitos cxplorados neste capitulo. Os exemplos serao nccessariamcnte brcvcs porquc maquinas 
rcais sao de uma complesidade enorme. contendo miłhóes de port as. Os exemplos sao os mesmos que usainos ate 
I agora: o Pentium 4. o UltraSPARC III c o 8051. 

1 4.6.1 A microarąuitetura da CPU Pentium 4 

I Por lora. o Pentium 4 purccc uma niaquina CISC tradicional, com um conjunto de instruęóes i menso e desu- 

. jeitado que suporta operaęóes com intciros de 8, 16 e 32 biLs. bem como operaęóes de ponto tlutuante de 32 bite c 

64 bits. Tem somente oito registradores visiveis e nao ha dois deles que sęjum cxatamente iguais. Os comprimen- 
I los de instruęóes variam dc I u 17 bytes. Resumindo. e uma arquitctura herdada quc parece fazer tudo errado. 

Entretanto. por dentro. o Pentium 4 contem um nticleo RISC moderno. cnxuto e dc alto grau de puralelismo que 
cxccuta a uma taxa dc relógio extrcmamentc rapida. que provavclmentc cresccra nos anos vindoums. E muito impres- 
I sionantc como os cngenheiros da Intel conseguiram construir um proccssador de ultima geraęiio para implcmemar 

uma arquitetura antiga. Nesta seęao examinaremos a microarquitetura Pentium 4 para ver como ela funciona. 

I Visao geral da Microarąuitetura NetBurst 

I A microarquitetura do Pentium 4. denominada microarquitetura NetBurst. ć uma ruptura total em relaęao a 

microarquitetura P6 anterior. usada no Pentium Pro. no Pentium II e no Pentium III. c representa a base sobre a qual 
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a Intel construira nos próximos anos. Urna visao gcral csquematica da microarquitetura do Pentium 4 o dada na 
Figura 4.34. Esse diagramu corresponde mais ou menos a Figura 1.8. 

O Pentium 4 consiste em quatro subseęóes prineipais: o subsistema de memória, o terminal frontal. o contro- 
le de fora dc ordem e as unidades de execuęao. Vamos examind-las urna por urna, comeęando na parte superior 
esquerda e percorrendo o chip cm sentido anti-horario. 

O subsistema de memória eontem urna cache L2 (de m'vel 2). hem como a lógica para acessar a RAM extcr- 
na pelo barramento de memória. Na primeira geraęao, o Pentium 4 linha 256 KB: na segunda, 512 MB e na lercei- 
ra. 1 MB. A cache L2 ć urna cache associativu de 8 vias baseada em linhas dc cache dc 128 bytes. Quando urna 
requisięao ii cache L2 encontra urna auseneia da cache. ela inicia um par dc transferóncias de 64 bytes para a memó¬ 
ria principal para buscar os biocos necessarios. A cache L2 ć uma cache de leitura retroativa, e isso signiłlca que. 
quando uma linha e modificada. o novo conteudo nao e cscrilo dc volta na memória utć que a linha seja descarre- 
gada para a memória. 

Associada a cache esla uin unidade dc busca antccipada (que nao e mostruda na tlgura) quc lenta buscar 
dados com antecedencja da memória principal para u cache L2, antes de cles serem necessarios. Da cache L2. 
os dados podem migrnr para ouirus caches em altu vclocidade. Uma nova busca nu cache L2 pode ser iniciudu 
a cada ciclo altcrnado de relógio. Portanto. por exemplo, se o relógio funeionar a 3 GHz, em teoria a cache L2 
pode fornecer ds ouirus caches atć 1,5 bilhfio por segundo de biocos de 64 bytes puru uma largura de banda de 
% GB por segundo. 

Abaixo do subsistema de memória na Figura 4.34 estd o terminal frontal que busca instnięóes da cache L2 e 
os dccodifica na ordem do programu. Cada instruędo ISA do Pentium e desmembrada em uma seq(iencia dc microo¬ 
pcraęócs parecidas com RISC. Para as instnięóes mais simples, a unidade de busca e decodificaęao determma inter- 
numente quais microoperaęócs sao ncccssarias. Para as mais complexas. a scqiiencta dc microopcraęócs ncccssa- 
rias e consultada na micro-ROM. De qualquer modo. loda instruęao ISA do Pentium 4 ć convertida para uma 
seqiiencia dc microopcraęócs para cxccuęao pelo nticlco RISC do chip. U esse o mccanisnto que resolve a defasa- 
gem entre um cnnjunto dc instnięóes CISC untigo e um moderno caminho de dados RISC. 

As microopcraęócs dccodificadas sao aliinentadas na caclic de rastreamento. que e a cache dc instruęóes dc 
nivcl I. Colocando em cache as microoperaęóes dccodilicadas em vez das instruęóes em bruto. quando uma instru- 
ęiio e exccutada l ora da cache de rastreamento, nao tui nenhumu necessidade de deeodilica-la urna segunda vcz. lissa 
abordagem e uma das difcrenęas fundamentais entre a microarquitctura NctBurst e a P6 ique continha apenas ins¬ 
tnięóes Pentium 4 na cache de instruęóes de ntvcl 1). A prcvisao dc dcsvio lombćm e leiui ;iqui. 

Instruęóes sao aliinentadas da cache de rastreamento para o esealonudor na ordem ditada pelo programu, 
porem clas nao sao necessariamente emitidas na ordem do programu. Quando e encontrada uma microirperaęao que 
niio pode ser cxeculada, u esealonudor a retem mas continua proecssando a eorrente de instruęao para emitir instru¬ 
ęóes subscqiicmcs para as quais lodos os rccursos (legistradorcs, unidades funcionais etc.) estao disponiveis. A 
renomeaęao de registradores tambem ć feita aqui. para permitir que instruęóes com uma dependencia WAR ou 
WAW prossigam sem a traso. 

Embora instruęóes possam ser emitidas fora de ordem. o requisito de intcrrupęóes exatas da arquitctura do 
Pentium significa quc as instruęóes ISA devem ser instruęóes devcm ser retiradas listo e. seus rcsultados dcvem 
licar visfvcis) em ordem. A unidade de retirada cxccuta essa tarefa. 
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No quadrante superior direita da figura temos as unidades de exeeuęao que efetuam as instruęóes dc inteiros. 
Je ponto tluluanie e espccializadas. Existem varias unidades de execuęao e clas funcionam om paralelo. F.las obtćm 
seus dados do arquivo do registrador e da cache de dados LI. 

0 paralelismo da NetBurst 

A Figura 4.35 e unia vcrsao mais dctalhada da microarquitetura NetBurst. mostrando o paralelismo. Na parte 
superior estd o terminal 1'mntal. cuja tarela ć buscar instruęócs na memória c prepurd-las para execuędo. O painel fron- 
ial recebe novas instruęóes Pentium da eaehe L2. 64 bits por vez. Ele as deeodifica para microopcraęóes para arma- 
/enamento no cache de rastreamento, que retem 12 K microoperaęóes. Uma cache dc rastreamento desse tamanho 
da urn desempenho companwel ao dc uma cache LI convcncional de 8 KB a 16 KB A cache de rastreamento con- 
tćm grupos de seis microopcraęóes em urn unica linha de rastreamento. As microopcraęóes cm uma linha de rastrea¬ 
mento devcm ser cxocutadas em ordem. ainda que possam ser dcrivadas de instruęóes Pentium ISA separadas por 
milhares dc bytes. Para scqilCncias mais longas de microopcraęóes, vdrias linhas de rastreamento podein ser ligadas. 

Se uma instruęao ISA Pentium rcquerer mais do quc quatro microoperaęóes. ela ndo e dccodilicada para a 
cache dc rastreamento. F.m vez disso. urn marcador ć colocado ali para indicar a lógica que consulle as microope- 
raęóes na ROM dc microcódigo. Desse modo, as microopcraęóes sao alimentadas para a lógica fora dc ordem. seja 
usando instruęóes ISA previamcnle decodifieadas da cache de rastreamento. seja consultando complexas instruęóes 
ISA, como movimentos de cadcias, na ROM de microcódigo durante a execuęao. 

Se a unidade codiftcaę3o encontrar urn desvio condicional, ela consulta o alvo prcvisto no buffer dc desvio- 
alvo de nivel 1 (BTB — Branch Target BufTer) e continua a partir do endereęo previsto. O BTB LI retem 4 K 
dos desvios mais recentes. Se a instruęao de dcsvio nao estivcr na tabela, e usada previsao estitica. Lim desvio para 
tras e entendido como parte de urn laęo e admite-se quc deve ser tornado. A exatid5o dessas previsóes estaticas ó 
extremamente aha. Urn dcsvio para u fronte e entendido como parte dc uma dcclaraęao If e admite-se quc nao deve 
ser tornado. A exatidao dessas prcvisóes cstdticas i bem mais baixa do que a de desvios para tras. O BTB de ras- 
treamenlo e usado para prever para onde irao as microopcraęóes de desvio. 

A segunda parte do paralelismo. a lógica dc controlc fora de ordem. e alimentada a partir da cache dc rastrea¬ 
mento. que retem 12 K microoperaęóes. A medida que cada microopcraęao chega do painel frontal. tres por ciclo, 
.i unidade de alocaęao/renomeaęao a rcgislra em uma tabela de 128 entradas denominada ROB ( ReOrder BufTer 
— hufTer de rcordenuęao). Essa entrada monitora o estado da microoperaęao atć ela ser retirada. Em seguida, a 
unidade de alocaęao/renomeaęao veriftca para ver se os recursos que a microopcraęao nccessita estao dispom'veis. 
Se estivcrcm, a microoperaęao e cnfileirada para execuęao em uma das fiias de exccuędo. Sao mantidas filas sepa¬ 
radas para microopcraęóes da memória e microoperaęóes que nao sao da memória. Se uma microoperaęao nao 
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puder ser esecutada, ela e reiardada, mas as microoperaęóes subseqiientes sao proeessadas, o que lcva i exccuęao 
fora de ordem das microoperaęóes. Essa estratógia foi projetada para rnanter todas as unidades luncionais o mais 
oeupadas possivel. Ató 126 instruęócs podem estar no ar a qualquer instante e ató 48 dessas podem ser carregadas 
da metnória e ate 24 podem ser armazenamentos para a memória. 

As vezes uma microoperaęao e protelada porque precisa escrever para um regisirador que esta sendo lido ou 
escrito por uma microoperaęao anterior. Esses eonflitos sao denominados dependeneias WAR e WAW, respectiva- 
mente, como vimos antes. Renomeado o alvo da nova microoperaęao para permitir quc ela esereva seu resultado 
em um dos 120 registradores transitórios cm vez de no alvo pretendido. mas ainda oeupado, pode ser posst vel esca- 
lonar a microoperaęao para execuęiio imediatamente. Se nao houver nenhum registrador iransitório disponivel. ou 
sc a microoperaęao tiver uma depcndencia RAW (que nunca podeni ser ignoruda). o alocador obscrva a natureza do 
problema na entrada do ROB. Quando lodos os rccursos requisitados ficam dispom'veis mais tardc. a microopera¬ 
ęao e colocada em uma das fi las de execuę3o. 

A unidade de alocaęao/renomeaęao póe as microoperaędes nas duas filas quando das cstiverem prontas para 
exccutar. Na outra extremidade ha quatro escalonadores que as dram da fila. Cada escalonador escalona alguns 
rccursos, como segue: 

1. Escalonador I: ULA 1 e a unidade de raovimentaęiio de ponto fiutuante. 

2. Escalonador 2: ULA 2 e unidade de execuęao de ponto fiutuante. 

3. Escalonador 3: Carrcga instruęócs. 

4. Escalonador 4: Armazena instruęócs. 

Uma vez que a lreqiienciu dc funcionamento dos escalonadores e das ULAs ć duas vezes a frcquencia nomi¬ 
nał do rclógio. os dois primeiros escalonadores podem dcspachar duas microoperaęócs por ciclo dc rclógio. Com 
duas ULAs dc intciros cada uma funcionando a velocidade dobrada. um Pentium 4 de 3 GHz e capaz dc rcalizar 12 
bilhóes de opcraęóes com inteiros por segundo. Essa velocidadc muilo alta e a razuo por que o conlrole dc fora de 
ordem sc preocupa lanto em encontrar trabalho para as ULAs realizarem. As instruęócs de carga e annazenamento 
eompartilham uma unidade dc execuęao de lrequencia dobrada, isto e. capaz de emitir uma carga c um urmuzena- 
mento em cada ciclo. Assim, no melhor dos casos, seis microoperaęóes de intciros podem ser emitidas por ciclo de 
rclógio, alem de algumas opcraęóes de ponto fiutuante. 

As duas ULAs de inteiros nao sao identicas. A ULA 1 pode execuuir todas as opcraęóes arilmćticas, lógicas e 
desvios. A ULA 2 pode efetuar apenas adięao, subtruęao, deslocamento e instruęóes de rotaęao. Da mesma forma, 
as duas unidades de ponto fiutuante tambem nao sao iguais. A primeira pode rcalizar movimenlaęóes e as instru- 
ęócs SSE. A segunda pode efetuar aritmetica de ponto fiutuante, instruęóes MMX e instruęóes SSE. 

As unidades de ULA e ponto fiutuante sao aiimentadas por um par de arquivos de registradores de 128 entra- 
das, um para intciros e um para numeros de ponto fiutuante. Eles fomecem todos os operandos para as instruęóes 
serem exccutadas e um reposilório para resultados. Devido i renomeaęao de registradores, oito deles contem os 
registradores visfveis no mvcl ISA (EAX. EBX, ECX, EDX etc.), porem, quais oito deles'retem o valor ‘rcal’ varia 
ao longo do tempo a medida que o mapeamento muda durantc execuęao. 

A cache dc dados LI e parte do eircuito de alta veloeidade (2x). E uma cache de 8 KB e contóm numeros intei¬ 
ros e de ponto fiutuante e outros ńpos dc dados. Diferente da cache de rastreamento, ela nao ć decodificada de modo 
algum e apenas retem uma cópia dos bytes na memória. A cache de dados LI e uma cache associativa de 4 vias com 
64 bytes por linha de cache. E uma cache dc escrita direta. o que significa que, quando uma linha e modificada. essa 
linha e imediatamente copiada de volta para a cache L2. A cache pode manipular uma operaęiio de leitura e uma de 
escrita por ciclo de rclógio. Quando uma palavra necessaria nao estiver presentc na cache LI. uma requisięao ć 
enviada a cache L2 que, ou responde imediatamente, ou busca a linha dc cache na memória e entao responde. Ate 
quatro requisięóes da cache L1 a cache L2 podem estar em curso a qualquer instante. 

Como microoperaęóes sao execuladas fora de uma ordem, nao sao permitidos armazenamentos na cache LI 
atć que todas as instruęóes anleriores a quc eausou o armazenamento tenham sido retiradas. A tareta da unidade de 
retirada ć retirar instruęócs. em ordem. e monitorar onde elas estao. Se ocorrer uma imerrupęao, as instruęóes que 
atnda nao forum reltradas sao abortadas, portanto o Pentium 4 conserva a propriedade que, na oeorrencia de uma 
inlerrupęao. todas as instruęóes forum conclufdas ató um determinado ponto e nenhuma instruęao após essa inter- 
rupęao tem qualquer efeito. 

Se uma instruęao de armazenagem foi retirada. mas’ instruęóes anteriores ainda estivercm em curso, a cache 
LI nao pode ser atualizada. portanto os resultados sao eolocados em um buficr especial de armazenamento penden- 
te. Esse buffer tem 24 entradas. coiTespondentcs aos 24 armazenamentos que podem estar em exccuęao ao mesmo 
tempo. Se uma carga subscqiiente tentar ler os dados annazenados, ela pode ser passada do buffer dc armazenamen¬ 
to pendente para a instruęao. mestno quc ainda nao esteja na cache de dados L1. Esse processo e denominado repas- 
se de armazenamento para carga. 

A essa allura deve estar ciaro quc o Pentium 4 tem uma microarquitctura de alta complcxidade cujo projeto 
foi eomandado pela necessidade de executar o antigo eonjunto de instruęóes Pentium em um ntieieo RISC moder¬ 
no. de alto grau de paralelismo. Ele cumprc esse objctivo desmembrando instruęócs Pentium em microoperaęóes, 
colocando-as em cache e alimentando-as no paralelismo tres por vez para execuęao em um eonjunto de ULAs 
capaz de executar ató seis microoperaęóes por ciclo sob condięóes ótimas. Microoperaęóes suo exccutadas fora dc 
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ordem. mas retiradas cm ordcm c os rcsultados siło armazcnados nas caches LI c L2 em ordcm. Mais informacóes 
sobre a microarquiietura NctBurst podcm ser encontradas em Hinton et ul. (2004). 

4 . 6.2 A microarąuitetura da CPU UltraSPARC-III Cu 

A sdrie UltraSPARC i u implcmeniaędo da Sun da arquitctura SPARC Versao 9. Do porno de vista do usuario 
ou do programador, isto ć, no nlvcl 1SP, os varios modclos sao bastante similares e as principais difcrenęas sao o 
dcsempenho c o preęo. Todavia. no m'vel da microurquiictura. as difcrenęas entrc e!es sao considenivcis. Nesta 
scęao descreveremos o processador UltraSPARC Ul Cu. O Cu na dcsignaęao refere-se ii utilizaęiio de fiaęao de 
eobre no chip. em vcz da tiaęHo dc alumlnio usada em seu antccessor. O cobre tern resistóncia mais baixa do que o 
alumlnio, o que permitc fios mais Unos c operaęao mais nipida. 

A UltraSPARC ni Cu e urna maquina eomplcta dc 64 bits, cum rcgistradores de 64 bits e um caminho dc dados 
de 64 bits. embora, por razócs de eompatibilidade com as SPARCs Versao 8 — isto e, 32 bits — ela tambem possa 
manipular operandos de 32 bits c. na verdade. exccutar software SPARC dc 32 bits sem modificaęao. Embora a 
arquitetura interna seja de 64 btls, o barramento de memória tern 128 bits dc largura. unalogo ao Pentium n com 
arquitctura de 32 bits e barramento e memória de 64 bits e. em amhos os casos. o barramento esui urna geracao it 
frente da própria CPU. 

Difercnte do Pentium 4. a UltraSPARC ć urna arquitetura RISC verdadcira. o que signillca quc ela nao preci- 
sa de um mecanismo eompleto para convertcr antigas instruęócs CISC em nticrooperaęóes para execuę3o. Na vcr- 
dadc. as instruęócs do nuclco ja s3o microopcraęóes. Contudo, nos lillimos anos foram adicionadas instruęóes grd- 
ticas e dc multimidia, quc rcqucrcm hardware espccial para sua exccuędo. 

Visao geral da mlcroarąuitetura UltraSPARC III Cu 

O diagramu de bloeos da UltraSPARC Ul Cu e dudo na Figura 4.36. No todo, cle ć muilo mais simplcs do quc 
a microarquitetura NetBustcr do Pentium 4 porque a UltraSPARC tern urna arquitetura ISA mais simples para 
implementar. Ainda assim, alguns dos componentes fundamentais sao semelhantes aos usados no Pentium 4. As 
siinilaridadcs sao, cm sua maioria, comandadas pela tecnologia ou por razóes económicas. Por cxcmplo, na epoca 
em quc csses chips foram projetados, caches de dados LI na laixa dc 3 KB a 16 KB faziam sentido, portanto. e o 
que elas tern. Se em algum ponlo no futuro caches LI de 64 MB fizeretn sentido tecnológico e económico, todas as 
CPUs as terao. As difcrenęas, ao contrano, se devem principalmente a diferenęa entre ter ou nao ter de preencher a 
lucuna entrc um conjunto dc instruęao CISC antigo e um nuclco RISC moderno. 

Na parte superior esqucrda da Figura 4.36 esta a cachc de instruęóes associativa de 4 vias c 32 KB. que usa 
linhas dc cache de 32 bytes. Urna vez que a maioria das instruęóes UltraSPARC e de 4 bytes, ha cspaęo para ccrca 
de 8k instruęóes nessa cache. um pouco menor do quc o da cache de rastreamento da NctBurst. 

A unidade de emissao de instruęao prepara atć quatro instruęóes para exccuęao por ciclo dc relógio. Se hou- 
vcr urna ausencia na cache 1.1, menos instruęócs serao emitidas. Quando e encontrado um desvio condicionul. urna 
tabela de ramificaęao com entradas de I6K e consultada para prever se busca a próxima instruęao ou a quc esta 
no cndercęo-alvo. Alćm disso. um bit extra associado com cada palavra na cache de instruęao tambem ajuda a 
melhorur u previsao de desvio. Instruęóes preparadas sao alimentadas em um buffer dc 16 instruęóes, que ajusta o 
fluxo de instruęóes para as linhas de paralciismo. 

A salda do buffer de instruęao entra nas unidades dc intciros, ponto flutuante e urmazcnamento/carga. como 
mostra a Figura 4.36. A unidade de execuęao dc intciros contćm duas ULAs, bem como uma curta linha de parale- 
lismo para instruęóes de desvio. Os rcgistradores ISA. bem como alguns rcgistradores transitónos. tambem estao 
contidos ali. 
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A unidade de porno flutuante contćm 32 registradorcs e tres ULAs scpanulas. para adięSo/subtraęao. mullipli- 
caę3o e divisiIo. respectivnmcnle. Instruęócs grificas tambern siło cxceutadas nesse easo. 

A unidade de caiga/armazenumento manipuia varias instruęócs dc carga e armazenugcm e tom caminhos de 
dados paru irćs cache.s ditcrcntcs. A cuchę de durin.%e uma trudicionul eachcde dados LI associalivadc quatro vias 
e 64 KB que usa uma linha de 32 bytes dc tamanho. A eache de busca antecipada dc 2 KB ć fomeeida porque a 
ISA UltraSPARC contćm instruęócs de busca antecipada que permitcm quc um compiiador busque palavras de 
dados antes de e!as serem necessdrias. 

Quando um compiiador acha quc podcria prccisar dc certa palavra, ele pode cmilir uma instruęao de busca 
antecipada. quc faz com que a linha de cachc cndercęada seja carrcgada na cache de busca antecipada com antecc- 
dćncia, o quc acclera o accsso quando a palavra ć necessaria algumas instruęóes mais larde. Sob certas circunstUn- 
cias, tambern ć feita busca untecipada em hardware, de modo a melhorar o desempenho de program as herdados que 
nao fazem busca antecipada. A cache de eserita ć uma cache pequcna (2 KB) que e usada para combinar resulta- 
dos dc cscrita para lazur melhor uso do largo barramenlo (256 bils) na direęao da cache L2. Sua unica funęao e 
melhorar o desempenho. 

O chip tambćm contćm lógica para controlar accsso a memória. Essa lógica ć subdividida em tres partes: a 
interface de sistema, o controlador da cache L2 e o controlador de memurix A inteiface de sistema faz a interface 
com a memória por um barramento de 128 bits de largura. Todas as requisięócs para o mundo exterior, exceio para 
a cache L2, passam por essa interface. Com um endereęo ffsico de memória de 43 bits. em teoria, a memória Prin¬ 
cipal pode ser de alć 8 TB. mas o tamanho da płaca de circuito imprcsso na qual o pmccssador e montado limitu a 
memória a 16 GB. A interface foi projetada para permitir que varias UllraSPARCs sejam eoncctadas a mesma 
memória para formar uin multiprocessador. Disculiremos mulliprocessadores no Capitulo 8. 

O controlador dc cache L2 faz interface com a cache L2 unifleada, que ć extemu ao chip da CPU. Com eachc 
L2 extema. sao possfveis caches de I MB, 4 MB e 8 MB. O tamanho da linha dependc do tamanho da cache. na 
faixa dc 64 bytes para uma cache de 1 MB atć 512 bytes para uma cachc dc 8 MB. Por comparaęao. a cache L2 do 
Pentium 4 usta no chip, mas ć Iimitada a I MB no maximo, dcvido ii falta de espaęo no chip. O compromisso nesse 
caso e que a UltraSPARC pode ter uma taxa de presenęa na cachc L2 muito mais alta do quc o Pentium (porquc a 
cachc pode ser maior), mas o acesso a cache L2 e mais lento (porquc estd fora do chip). 

O controlador de memória mapeia endercęos vinuais de 64 bits para endercęos ffsicos de 43 bits. A 
UltraSPARC suporta memória virtual (discutida no Capitulo 6) com tanianhos de pdgina dc 8 KB, 64 KB. 512 KB 
e 4 MB. Para acclerar o mupeumento sao fomccidas tabelas espcciais denominadas TLBs iTrunslation I.ookaside 
RufTers — bufTers de traduęuo lateral). para comparar o endereęo virtual corrente quc csui sendo referenciado 
com os endercęos referenciados no passado rccentc. Tres dessas tabelas sdo fomecidas para gcrcnciamento flexivel 
dos ditcrcntcs tamanhos de pdgina para dados c mais outrns duas para instruęócs dc mupcamcnto. 

Paralelismo na UltraSPARC III Cu 

A UltraSPARC 111 Cu tem paralelismo dc 14 estagios. ilustrado dc mancira simplificada na Figura 4.37. Os 14 
cstdgios sdo designados pelas letras Je A a D no lado csquerdo da figura. Agora vamos examinar brevementc eada 
um dos estagios. O esidgio A (geraęao dc endereęo) esta no inicio do paralelismo. Aqui e determinado o endereęo 
da próximu instruęao a ser buscada. Normalmente esse endereęo e o seguinte a instruęao corrente. Contudo. essa 
ordem seqtiencial pode ser quebrada por uma variedade de razóes, por exemplo, ąuando uma instruęao on tenor e 
um dcsvio que foi prcvisto para ser tornado ou quando uma exccęiio ou interrupęao precisa ser resolvida. Como a 
previs3o dc dcsvio nao pode ser feita em um ciclo, a instruęao em seguida a um desvio condicional e semprc exc- 
cutada. nao importando para ondc o desvio vai. 

O estagio P (busca preliminar) usa o endereęo fornecido pelo estagio A para comeęar a buscar ate quatro ins- 
truęóes da cachc dc instruęócs LI (cachc ILI) por ciclo. A tabela dc dcsvios tambern e consultada aqui para vcr sc 
quaisqucr delas sao desvios condicionais c. em caso afirmativo. se a prcvisao indica que eles sejam tomados. O estti- 
gio F (busca) conclui a busca de instruęóes para a cache de instruęao (cache 1). 

O estagio B (ulvo do dcsvto) dccodilica as instruęóes quc acabaram dc ser buscadas. Se quaisqucr delas forem 
Jes\ tos prcvislo.s (tara serem tomados. essa iniormaęao esta dispom vel nesse estagio e c alimcntada de voltu ao esta- 
gio. V para comandar futura busca dc instruęao. 

O estagio / tformaęao de grupo de instruęóes) agrupa a instruęao quc entra dependendo de quais ilas sets uni- 
dades Ihncionais eia usa: 

1. ULA I de inteiros. 

2 . ULA 2 dc inteiros. 

3. ULA 1 dc ponto flutuunle/gratka. 

4. ULA 2 de ponto flutuante/grafiea. 

s. Paralelismo dc desvio (nao mostrado na tigura). 

e. Operaęócs dc carga. armazenamento e operaęócs especiais. 

As duas ULAs de inteiros nao sao oxatamentc identicas e as duas ULAS de porno flutuante tem difcrcnęas 
nprecitWeis. Em eada caso. os conjuntos de instruęóes que as ULAs podcm executar stlo diferenles. No estagio /. as 
instruęócs sao ciassificadus dependendo dc qual unidade necessitam. 



; ___ 



O esuigio J (esuigio dc ugrupamcnto de instruęóes) retira instruęócs da trlla de instruęócs e prcpara para des- 
pacha-las para as unidades de execuęao durantc o prójumo cielą. Alć quatro instruęóes podem ser passadas para o 
estagio R a cada eiclo. A escolha de instruęócs e restringida pełas unidades funeionais disponfveis. Por cxemplo. 
duas instruęócs de inteiros. uma instruęao de ponto tlutuante c unia instruęao de earga/armazenamento, podem ser 
cmitidas cm um ciclo. 

O ostagio R consulta os rcgistradores neccssarios para as instruęócs dc inteiros e repassa as requisięóes de 
rcgistradorcs dc ponto llutuantc para o arquivo dc rcgistradores dc ponto tlutuante. Veritlcaęóes dc dcpendencia 
tambem sao fcitas nessc caso. Se um registrador neccssiirio nao estivcr disponwcl porque ainda estd sendo usado 
' de modo contlitantc por uma instruęao antcrior, a instruęao que osia prccisando daquele registrador e protelada c as 
quc estao atras dela sio bloqueadas. Difcrcnte do Pentium 4. a UltraSPARC III Cu nunca emite instruęócs fora dc 
ordem. 

O esuigio E (exccuęao) e o estagio cm quc as instruęócs dc inteiros sao realmente cxecutadas. Grandę parte 
das instruęócs aritmeticas. bouicanus o dc dcslocamcnto usam as LLAs de inteiros e conclucm cm um ciclo. Na 
oondusdo, cada instruęao atualiza imediatamentc o arquivo dc rcgistradores de trabalho. Algumas das instruęócs de 
inteiros inais oomplexas siło cncaminhudus para uma unidade cspeciul. Ncsse estagio instruęóes dc carga c arma/.c- 
namento sao iniciadas. mas nao toncluidas. Ncsse caso, operandns de ponto tlutuante sao huscados no arquivo dc 
rcgistradores de ponto tlutuante. Instruęócs de desvio condicional sao pmeessadas no estagio £ e sua dircęao (des- 
vio/nenhum dcsvio) e determmada aqui. Sc ocorrer uma previsiio crrónea. um sinal ć cnviudo de volta ao estagio A 
i e o paralclismo e esvu/.iado. 

O estagio C (eachc) ć o estagio cm quc e concluido o accsso a cache LI. Instruęóes que leern memória listo 
ć. instruęócs dc carga) entregam scus rcsultados aqui. 

0 estagio M (auseneia) inicia o processamento de palavras dc dados que sao necessdrias, mas nao estao na cache 
LI. A cache 1-2 ć veriticada a seguir c. sc tambem falhar, ć cmitida uma referencja a memória. o que toma um gran¬ 
dę mimem de eiclos. Quaisqucr bytes. quanos-de-palavras ou mcias-palavras que estiio presemes na cache LI mas 
quc prccisam ser alinhadas ou estendidus em sinal Uimbćm sao processadas nesse esuigio. Cargas dc ponto llutuante 
I quc chcgam c oncontram presenęa na cache de busca antccipada tambem obtćm scus rcsultados nqui. A cache dc 

busca antccipada niio e usadu para dados de mimeros inteiros por razóes um tamo complicadas de tcmporizaęao. 

I 

A. 
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O estdgio W (eserita) e o estagio cm que os resultados da unidadc especial san escritos de volta no arquivo dc 
regisiradorcs em servięo. 

O estagio X (extensdo) e o estdgio em quc a rnaioria das instruęóes de ponto flutuante e grdficas se eonclui. Os 
resultados estao disponfveis para instruęócs subseqUcntcs por meio de rcpasse de armazenamento-para-caiga antes 
que as instruęócs sejam tormalmente retiradas no estagio D. 

O estdgio T (exceęao) e o estdgio em quc sdo detectadas as exceęóes de inteiros e pontos flutuantes. Esse estd¬ 
gio ć responsavcl por fazer eom que as exeeęoes e interrupęóes sejam exatas. Em outras palavras, após urna cxee- 
ęao ou intemipęao. o estado da mdquina que e salvo deve ser tal que lodas as instruęócs antes da exeeęao ou inter- 
rupęao tenham concluido totalmente e nenhuma das instruęóes depois delas tenłiam sido iniciadas. 

O estdgio D entrega os rcgistradorcs de inteiros e pontos flutuantes a seus respeetivos arquivos de registrado- 
res de arquitetura. Se ocorrer uma armadilha ou interrupęao, sao esses valores quc licam visiveis. e nao os que estao 
nos registradores de scrvięo. O ato de armazenar o registrador no arquivo de arquitetura e equivalente a retirada no 
Pentium. Alćm disso, no estagio D. quaisquer instruęóes de armazenamento agora coneluem a eserita de seus resul¬ 
tados na cache de eserita em vez de na cache de dados LI. Por firn, as linhas que estao nessas caehes sao escritas 
de volta na cache L2, evitando a cache LI (cujo conteudo nao e compatwel com o da cache L2). Esse arranjo pre- 
tende facilitar a construęao de multiprocessadores UltraSPARC 

Essa descrięao da UltraSPARC III estd longe de ser eompleta, mas dcvc dar urna idćia razoavel de como ela 
funciona e de quais sao as difercnęas entre sua arquitetura e a do Pentium 4. 

4.6.3 A microarąuitetura da CPU 8051 

Nosso ultimo exemplo de urna microarquiletura e a da 8051. mostrada na Figura 4.38. Essa microarquiletura 
e consideravelrnente mais simples do que a do Pentium e da UltraSPARC. A razao para essa simplicidade e que o 
chip 6 muito pequeno (60.000 transistores) e foi projetado antes de o paralelismo sc tornar comum. Alćm disso, o 
objetivo primdrio era fazer urn chip barato, nao rapido. Barato e simples sao bons amigos. Barato c rapido nao sao 
bons amigos. 

O coraętlo da 8051 e o barramento principal. Ligado u ele estao varios registradores, a rnaioria dos quais pode 
ser lida e eserita sob eontrole de programu. Vamos descrevś-los brevemente agora. O registrador ACC e o 
ACCiunulator (acumulador). o principal registrador arilmetico no qual e amiazenadu a rnaioria dos resultados de 
calculos. Grandę parte das instruęócs aritmeticas o usa. O registrador B e usudo na multiplicaęao e na divisao e tum¬ 
bę m ć um registrador transitório para reter dados temporarios. O registrador SP e o ponteiro de pilha e aponta para 
o topo da pilha, como na rnaioria das maquinas. O registrador IR ć o registrador de instruęao. Ele retćm a instru- 
ęao que estd sendo executada no momenlo em questao. 

Os registradores TMP1 e TMP2 sao acumuladorcs para a ULA. Para executar uma operaęiio de ULA, em pri- 
meiro lugar os operandos sao copiados para esses acumuladores. entao a ULA e iniciada. 
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A salda da ULA pode ser escrita para qualqucr um dos registradores que podem ser escritos por meio do bar- 
' ramento principal. Alćm disso, os eódigos de condięóo, que indicani se o resultado era zero, negativo etc., sio escri- 

I tos para o PSW (Program Status Word — paluvra de estado do programu). 

O 8051 tem memórias separadas para dados e código. A RAM dc dados tem 128 bytes (8051) ou 256 bytes 

• (8052), portanto o registrador RAM ADDR de 8 bils e suficientemente largo para endercęar todos cles. Para enderc- 

• ęar a RAM. o endereęo do byte desejado ć colocado no registrador RAM ADDR c a operaęao de memória e inicia- 
da. A memória de código pode ter atć 64 KB de largura (quando ć usada memória fora do chip), portanto o regis- 

I trador ROM ADDR usado para endereęa-la tem 16 bits de largura. De modo scmelhantc. o registrador ROM ADDR 

. endereęa o código dc programa na ROM. 

O DPTR (Double PoinTeR — ponteiro duplo) e um registrador iransitório dc 16 bits para gereneiar e mon- 
I tarendcrcęosde 16 bits. O registrador PC e ocontudor de programa l Program Counter) dc 16 bits, isto ć, oende¬ 

reęo da próxima instruęio a huscar c exeeutar. O registrador PC INCREMENTER (incrcmcntador de 1*0 ć uma pcęa 
de hardware especial que age como um pscudo-registrador. Quando o PC e copiado para cle c entio lido de volta, 
I o vaior ć uutomaticantentc inerementado. Nem o PC nem o PC INCREMENTER podem ser alcanęados pclo barra- 

mento principal. Por firn, BUFFER e um oulro registrador iransitório de 16 bits. Na vcrdade. todos csses registrado¬ 
res dc 16 bits consistcm cm um par dc registradores de 8 bits que podem ser manipulados indcpendcntcmcnte. mas 
I o efeito i o de um registrador dc 16 bits. 

Alćm disso, o 8051 tem tres temporizadorcs de 16 bits no chip que sio cssenciais para aplicaęóes cm tempo 
rcal. Tambćm ha quatro portas E/S de 8 bits, que permitem que o 8051 controie atć 32 botócs ou tcclas, limpadas. 
I sensores, atuadorcs cxtcmos c assim por diantc. Acima de qualquer outra coisa, ć a presenęa dos temporizadorcs e 

portas E/S quc possibilitam usar o 8051 para aplicaęóes embutidas sem nenhum chip adicional. 

' O 8051 ć um proccssador sinerono no quaJ a maioria das instruęóes lcva um ciclo dc rclógio. embora algumas 

I levem mais. Cada ciclo de rclógio pode ser dividido em seis purtes, denominadas estados. Durante o primeiro esta¬ 

do. a próxima instruęio ć buscada na ROM, colocada no barramento principal e encaminhada para denlro do regis¬ 
trador IR. Durante o segundo estado. a instruęio ć dccodificada e o PC inerementado. Durante o tcrcciro estado. os 
I operandos sio prcparados. Durante o quarto estado. um dos operandos ć colocado no barramento principal. usual- 

mente para despacho para TMP1. ondc ele pode ser registrado para ulilizaęao como um operando da ULA. O regis¬ 
trador ACC tambćm pode ser copiado para TMP2 durante csse estado, portanto. ambas as entradas da ULA estao 
I prontas para serem usadas. Durante o quinto estagio, a ULA executa. Por fim, durante o sexto estado. a safda da 

ULA ć escrita de volta para seu destino no barramento principal. Enquanto isso. o registrador ROM ADDR e ajusta- 
I do para buscar a próxima instruęio. 

. Embora pudćssemos entrar em mais detalhes sobre o 8051. a descrięao acima e a Figura 4.38 dao a ideia 

basica. O 8051 tem um tinico barramento principal (para reduzir a area do chip), um conjunto heterogeneo 
I de registradores e tres temporizadorcs c quatro portas pendurados no barramento principal. mais alguns regis- 

. tradores cxtras no barramento local. Em cada ciclo de caminho de dados dois operandos sao passados pela 

ULA e os resultados voltam a ser armazenados em um registrador. cxatamcntc como nos computadorcs mais 
I modemos. 

I 

i 4.7 Comparaęao entre Pentium, UltraSPARC e 8051 

Nossos tres cxcmplos sio muito difcrcntes. porem ainda assim exibem uma certa dose de caractcristicas em 
l comum. O Pentium 4 tern um conjunto de instruęóes CISC antigo quc os engenheiros da Intel adorariam jogar na 

Baia dc San Francisco, coso isso nio violas.se as leis antipoluięao das aguas da Califómiu. A UltraSPARC 111 e um 

• projeto RISC puro. com um conjunto de instruęóes enxuto e esperto. O 8051 'ć um simples proccssador de 8 bits 

I para aplicaęóes embutidas. Ainda assim. o coraęao de cada um deles ć um conjunto de registradores e uma ou mais 

ULAs quc efetuam operaęóes aritmeticas booleanas simples em operandos registradores. 

I A despeito de suas óbvias diferenęas cxtcmas. a Pentium 4 e a UltraSPARC III tćm unidades de exccuęao 

ra/.oavelmenie semelhantes. Ambas as unidades dc cxccuęao accitam microopcraęóes quc conlćm um opcode, dois 
registradores-fonles e um registrador de destino. Ambas podem executar uma micmoperaęao em um ciclo. Ambas 
I tćm allo grau de paralclismo, previsao de desvio e caches dc instruęóes e de dados divididas. 

. Essa similaridadc interna nao e um acidentc ou nem mesmo devida a etema rotatividade dc empregos dos 

engenheiros do Silicon Valley. Como vimos em nossos excmplos Mic-3 e Mic-4. e fsicil e natura! eonsiruir um cami- 
I nho dc dados com parolelismo que pega dois registradores-tbntcs, passa-os por uma ULA e armazena os resultados 

em um registrador. A Figura 4.24 mostra csse paralelismo graficamente. Com a tccnologiu atual. esse e o projeto 
mais efetivo. 

I A principal diferenęa entre a Pentium 4 e a UltraSPARC III ć o modo como elas vao de seu conjunto de ins- 

truęao ISA atć a unidade dc execuęao. O Pentium 4 rem de Iragmcntar suas instruęóes CISC para coloea-lus no for¬ 
matu de tres registradores que a unidade de cxccuęao neccssila. E isso que faz o terminal frontal na Figura 4.35 — 
| desmembra instruęóes grandes em microopcraęóes caprichadas e jeitosas. A UltraSPARC III nao tern de fazer nada 

porque suas instruęóes nativas ja sao microopcraęóes caprichadas e jeitosas. E por isso que grandę parte das novas 
ISAs sao do tipo RISC — para oferecer melhor compatibilidade entre o conjunto de instruęao ISA e o mecanismo 
I interno dc cxccuęao. 


t 
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E insirutivo comparar nosso projelo finał, a Mic-4. com esses dois exemplos do mundo real. A Mic-ł e muitn 
parccida com o Pentium 4. A tarota dc ambos ć intcrpreiar um eonjunto dc instruęao ISA quc nao e RISC. Ambos 
fazcm isso dcsmembrando as instruęóes ISA cm microopcraęócs com um opcodc, dois rcgistrodores-fonles e um 
regislrudor dc destino. Em ambos os casos. as microopcraęócs sao dcpositadas cm unia fila para execuęao mais 
larde. A polftica estrita do projcto da Mic-4 prcve cmiss&o em ordem, cxecuę3o em ordcm. retirada cm ordem, ao 
passo que o Pentium 4 tern urna polftica de emissao em ordem. execuęao fora dc ordem, retirada cm ordem. 

Na rcalidadc. a Mie-4 e a UltraSPARC III nao podem ser comparadas. porquc o eonjunto de instruęóes ISA da 
UltraSPARC lii e composto de instruęóes RISC (isto ć. microoperaęóes de trcs rcgistradorcs). Essas instreędes nao tern 
de ser desmembradas c podem ser executadas como sc apresentam. cada urna cm um unico ciclo de eaminho ile tlados. 

Em comparaęao com o Pentium 4 e a UltraSPARC III, a 8051 ć realmente uma maqutna simples. Tcnde mais 
para RISC do que para CISC porque grandę parte de suas instruęóes pode ser executada cm um ciclo de relógio e 
nao prccisa ser desmembrada. Ela nao tern paralelismo. nem cache. c tern emissao em ordcm, execuęao cm ordcm 
e retirada cm ordem. Em sua simplicidadc. e muito mais aparentada com a Mic-1. 

4.8 Resumo 

O coraęao de todo computador e o eaminho dc dados. Ele contćm alguns rcgistradorcs, um, dois ou trcs bar- 
ramentos c uma ou mais unidades luncionais como ULAs e deslocadores. O laęo de cxccuęiio principal consisic cm 
huscar alguns operandos em rcgistradorcs e envid-los pelos barramentos a ULA e a outras unidades funcionais para 
exccuęao. Entao, os rcsultados sao armazenados dc volta nos registradores. 

O eaminho dc dados pode ser controlado por uma seqiiencia quc busca microinstruęóes cm um armazenamen- 
to dc controlc. Cada microinstruęao contćm bits que conlrolam o eaminho de dados por um ciclo. Esses bits espe- 
cificam quais operandos sclccionar, qual operaęao cxecutar c o quc fazer com os rcsultados. Alem disso, cada 
microinstruęao cspecilica sua sucessora, em gcral explieitamente por contcr seu endereęo. Algumas microinstruęóes 
modificam esse endercęo dc busc efetuando opcraęóes OR com bits no cndcrcęo antes de usd-lo, 

A maquina IJVM ć uma mtiquina dc pilha com opcodes de 1 byte quc passam palavras para a pilha, retiram 
palavras da pilha e combinam palavras (por cxcmplo, somando-as) na pilha. Uma implementaęao microprograma- 
da Id i dada a microarquitctura Mic-1 Adicionando uma unidadc de busca dc instruęao pora carregar os bytes ante- 
cipadamcntc na scqiiencia dc instruęao, foi possivel diminar muitas rcfercncias ao contador de programa e a mdqui- 
na ficou muito mais veloz. 

Ha muitas manciras dc projetar o nivcl de microarquitctura. Existcm muitos compromissos, incluindo proje- 
tos com dois barramentos c trcs barramentos, cumpos de microinstruęiio codificados e nao codificados, presenęu ou 
ausćncia dc busca antecipaila. alto grau de paralelismo ou baixo grau dc paralelismo e muito mais. A Mic-1 ć uma 
maąuinu simples, controlada por software, com cxccuęao xeqiicncial c ncnlium paralelismo. Por comparaęao. a Mic 
4 e uma microarquiteuira dc alto grau de paralelismo com setc estugios. 

O desempenho pode ser inclhurado de varias manciras. Cache de memória ć um dos principais. Cachcs de mapea- 
mento direto c caches associalivas de eonjunto sao eomumente usadas para acelerar referćncias a memória. Prcvisao 
de desvio — cstatica c dinnmicu — ć importante. assim como execuęiIo lora dc ordcm c exccuęao cspcculativa. 

Nossas outras trćs mdquinus de cxemplo — Pentium 4. UltraSPARC HI e 8051 — tćm, todas, microarquitctu- 
ras que nilo sao visfvcis aos programadores dc linguagem de montagem ISA. A Pentium 4 tem um csquema com- 
plexo pora converter instruęóes ISA em microopcraęócs, coloca-las cm cachc c alimcnta-Ius cm um nuclco RISC 
superescalar para cxccuęiło fora dc ordem. renontcaędo dc rcgistradorcs c todos os truąues do rcpertório para cxtrair 
a ultima gola possfvcl dc vclix:idadc do hardware. A UltraSPARC Ul Cu tem alto grau dc paralelismo, porćm. no 
mais. ć re!ativamente simples. com emissao em ordem. cxecuęao cm ordem e retirada em ordcm. A 8051 ć muito 
simples, com um unico barramcnlo principal direto ao quul estao ligados um punhudo dc rcgistradorcs e umu ULA. 

Problemas 

1. Na Figura 4.5 o rcgistrador do barramento B estd codificado cm um campo dc 4 bits. mas o barramcnlo C ć 
representado com um mapa dc bits. Por quć? 

2. Na Figura 4.5 ha um rclangulo denomtnado ‘bit alto'. Apresentc um diagramu de circuito para cle. 

3. Quando o campo JMPC cm uma microinstruęao ć desabilitado. ć efetuada uma opcraęiio OR enlre MBR e 
NEXT ADRESS para form ar o endereęo da próximu microinstruęao. Hd alguma circunstancia na qual faz sen- 
lido que NEXT ADDRESS seja 0x IFF c usar JMPC? 

4. Suponhu quc no cxcmplo da Figura 4.12(al a dccluraęao 
k = S; 

ć udicionada aptis a dcclaniędo if. Qual seria o novo ctkligo dc montagem? Considere que o compilador e um 
compilador otimizador. 

5. Dć duas traduęues 1JVM diferentes para a seguinte dcclaraęao Java: 



I s k ♦ n ♦ 5; 



6. De a declaraęao Java que produziu o scguinle código IJVM: 

ILOAD j 
ILOAD n 
ISUB 
BIPUSH 7 
ISUB 
DUP 
IADD 
ISTORE i 

7. No texto. mendonamos que, quando traduzimos a declaraęao 
ił (Z) goło LI: else goto L2 

para binaria. 12 tem dc cstar nas ultimas 256 palavras do armazenamento dc controle. Nao seria igualmentc 
possfvel quc LI estivcsse cm, por exemplo. 0x40 e 12. cm 0x140? Explique sua rcsposta. 

8. No microprograma para Mic-I, em if_icmpeq3, MDR 6 copiado para H. Algumas linhas mais adiantc clc i 
subtraido de TOS para verificar igualdadc. Com ccrtcza seria meihor ter aqui uma declaraęao: 

if_cmpeq3 Z = TOS - MDR; rd 
Por que isso nAo ć feito? 

9. Quanto tempo uma Mic-1 de 2,5 GHz leva para cxccutar a declaraęAo Java a seguir? 
i-i + K; 

De sua resposta em nanossegundos. 

10. Repita a pergunta anterior, agora para uma Mic-2 dc 2.5 GHz. Com basc nesse calculo, quanto tempo um pro- 
grama que executa durante I (X) segundos na Mic-1 dcmoraria na Mic-2? 

11. Escrcva um microcikligo para a Mic-I a lim de implcmentar a instruęao JVM POPTWO. Essa instruęao retira 
duas palavras do topo da pilha. 

12. Na mdquina JVM completa. ha opcodcs cspeciais dc 1 byte para armazenar de 0 ate 3 locais na pilha em 
vez de usar a instruęao geral ILOAD. Como a 1JVM deve ser modilicada para fazer o meihor uso dessas 
instruęóes? 

13. A instruęao ISHR (dcslocamento aritmćtico de intcim para a dircita) existe em JVM mas nao em UVM. Ela 
usa os dois valorcs do topo da pilha, subslituindo os dois por um valor tinico, o resultado. A segunda palavra 
a partir do topo de uma pilha e o uperando a ser dcslocado. Seu contctido e desiucado para u dircita por um 
valor entrc 0 e 31. inclusive, dependendo do valor dos 5 bits menos significativos da palavra que osia no topo 
da pilha (os outros 27 da paJavra do topo sao ignorados). O bit dc sinal ć duplicado para a dircita por tantos 
bits quanto for o inteiro dc dcslocamento. O opcode para ISHR e 122 (0x7 A). 

a. Qual 6 a operaęao aritmetica equivalentc ao dcslocamento para a dircita com um inteiro 2? 

b. Estenda o microcikligo para incluir essa instruęao como uma parte da UVM. 

14. A instruęao ISHL (dcslocamento de inteiro para a esquerda) existe em JVM, mas nao em 1JVM. Ela usa os dois 
vaiorcs do topo da pilha. substituindo os dois por um valor unico, o resultado. A segunda paiavra a partir do 
topo da pilha ć o operando a ser dcslocado. Seu conteudo e dcslocado para a esquerda por um valor entrc 0 e 
31. inc!usive. dependendo do valor dos 5 bits menos significativos da palavra que esta no topo da pilha (os 
outros 27 da palavra do topo sao ignorados). Zeros sao deslocados para a dircita por tantos bits quanto for o 
inteiro de dfcslocamento. O opcode para ISHL ć 120 (0x78). 

a. Qual ć a operaęao aritmetica cquivalente ao dcslocamento para a csqucrda por uma contagcm de 2? 
h. Estenda o microcikligo para incluir essa instruęao como uma parte da IJVM. 

15. \ instruęao JVM INVOKEVlRTUAL prccisa saber quantos parAmelros ela tem. Por que? 

16. Implcnientc a instruęao JVM DLOAD para a Mic-2. Ela tem um indice de I byte e passa a variavcl loeal quc 
esta nessa posięao para a pilha. Entao ela (arabem passa para u pilha a prostota paiavra mais alta. 

17. Dcsenhe uma maquina dc estado Unito para contagcm dc pontos no jogo de tenis. As rcgrus do tenis sAo as 
seguintes. Para ganhur. voce prccisa de um minimo de quatro pontos e deve ter no minimo dois pontos a mais 
do quc seu udversario. Comece com um estado (0.0) quc indica que ncnhttm ponto lot marcado .mula. Depois 
adieione um estado 1 1.0), quc signilica quc A marcou um ponto. Denomine A o arco de (0, 0) u 11, 0). Agora 
adicionc um estado (0. I) quc indica que I) marcou um ponto e denomine U o arco dc (0.0). Coniinuc adieio- 
nando estados e arcos ate qtte todos os estados possivcis tenham sido incluidos. 

18. Reconsidere o problema anterior. Hd quaisquer estados que poderiam ser agrupados sem mudar o resultado de 
qualqucr jogo? Caso a resposta seja posiliva. quais sao equivalentes? 

19. Desenhe uma mdquina de estado tinito para prcvisao de dcsvio que seja mais persistente do que a Figura 4.32. 
Ela deve alterar previsóes somente apiis trcs previsócs erradas consecutivas. 
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20 . O rcgistrador de deslocamcnto da Figura 4.20 tem unia capacidude mus i ma de 6 byles. lima versdo mais bara- 
ta da 1FU poderia ser conslrufda eom um rcgistrador de deslocamcnto de 5 bytes? E de 4 bytes? 

21 . Agora que ja estudamos IFUs mais baratus na pergunta antcrior, vamos examinar IFUs mais caras. Haveria 
alguma razao para termos nas IFUS mais caras um registrador de deslocamento muitt) maior. por e.semplo, de 
12 bytes? Justitłąuc sua resposta. 

22 . No microprograma para a Mic-2, o código para Ifjcnnpeq6 vai para T ąuando Z e ajustado para l. Contudo, o 
eódigo cm T e o tnesmo que gotol. Seria possivcl ir para gotol diretamente? Fazcr isso deixaria a mtiquina 
mais rapida? 

23 . Na ,Vlic-4, a unidade de decodificacao mapeia o opcode IJVM para o indicc da ROM onde as microoperaęóes 
oorrcspondentes estao armazenadas. Parece mais simples apenas o mi tir o estdgio de deeodificaęao e alimen- 
tar o opcode UVM diretamente no cnfriciramento. Ela poderia usar o opcode UVM como um indice para a 
ROM. do mesmo modo que faz a Mic-1. O que esta errado nesse piano? 

24 . Um computador tem urna cache de dois m'veis. Suponha que 60% das referencias a mcmória obtóm presenęa 
na cache de primeiro nivel, 35% na cache de segundo nfvel, e 5% encontram ausencia da cache. Os tempos de 
acesso sao 5 ns. 15 ns e 60 ns. respectivamcnte. e os tempos para a cache de m'vel 2 e para a mcmória comc- 
ęam a ser contados no momento em que elas sabem que siło necessiirios (por exemplo, o acesso it cache de 
m'vel 2 nem mesmo inicia atć ocorrer urna ausencia da cache de m'vel I). Qual e o tempo medio de acesso? 

25 . No linal da Seęao 4.5.1 dissemos quc urna alocaęao de escrita vence somente se houver possibilidadc dc vdrias 
cscritas seqdenciais para a mesma linha de cache. E o caso de urna escrita seguida por vdrias leituras — tam- 
bem nao seria um grandę veneedor? 

26 . No primeiro rascunho deste livro, a Figura 4.29 mostrava urna cache associativa de tres vias em vez de urna 
cache associativa de ąuatro vias. Um dos rcvisores teve um ataque de nervos dizendo que isso provocaria uma 
terrfvel contusao para os estudantes porque tres nao e uma potencia de dois e os computadores tazem mdo em 
binario. Uma vez que o cliente sempre tem raziło, a figura foi alterada para uma cache associaliva de quatro 
vias. O revisor tinha raziło? Discuta sua resposta. 

27 . Um computador com parnlelismo de cinco estagios lida com desvios condicionais proteiando durante os tres 
ciclos seguintes após chegar a um desses desvios. Qual seria o prcjufzo causado por essa protclaęao se 20% 
de todas as instruęócs torem desvios condicionais? Ignore todas as fontes dc protclaęao cxccto os desvios 
condicionais. 

28 . Suponha que um computador faz busca antecipada de atć 20 instruęSes. Todavia. na media. quatro dessas ins- 
truęóes sao desvios condicionais, cada um deles com probabilidadc dc 90% de previsdo corrcta. Qual i a pro- 
babilidade de a busca antecipada estar na trilha certa? 

29 . Suponha que temos de alterar o projeto da maquina usada na Tabela 4.11 para ter 16 registradores em vez de 
8. En tao trocamos 16 para usar R8 como seu destino. O que acontece nos ciclos a partir do ciclo 6? 

30 . Dependencias normalmente causam problcmas em CPUs com paralelismo. Ha alguma otimizaęao que possa 
ser leita com dependencias WAW que poderia rcalmcnte melhorar a situaęao? Qual? 

31. Rcescreva o interpretador Mic-1 mas agora com LV apontando para a primcira variiivel local em vcz de para 
o ponleiro de ligaęao. 

32. Escreva um simulador para uma cache de mapeamento direto de uma via. Considere o niimero de entradas e 
o tamanho da liniia como parametros da simulaęao. Faęa alguns expcrimentos e escrcva um relatório sobre o 
que constatou. 




Nivel de arąuitetura 
do conjunto de 
instruęao 


E ste eapitulo discutc detalhadamenle o mvcl da arquitctura do conjunto de instruęao (ISA — Instruction Set Architccturc). 
Esse nivel esta posicionado entrc o mvel da microarquitctura c o mvel do sistcma operacional. como vhnos na Figura 1.2 
Historicamentc. esse nfvel foi desenvolvido antes de quaisquer outros nfvcis e, na verdadc. originalmcnte era o unico 
nivel. Ale hojc ndo ć incomum ouvir esse m'vel ser denominado simplcsmentc ‘a arquitctura' de uma maquina ou iis vczcs 
(incorrctamcntc) como ‘linguagem de montagem’. 

O mvel ISA tern um significado cspccial que o toma importante para arquitetos de sistema: ć a interlaee entre o softwa¬ 
re e o hardware. Embora seja possfvel o hardware exccutar diretamente programas cscritos em C, C-m-. Java ou alguma outra 
linguagem dc alto nivcl, nao seria uma boa ideia. A vaniagem cm desempenho da compilaęao em rclaęao 3 intcrprctaęao seria 
perdida. Alćm do mais, para ter muita utilidadc prdtica, a maioria dos computadores dcvc ser capa/ de executar programas 
cscritos em varias linguagens, e nao apenas cm uma. 

A abordagem adotada esscncialmcntc por todos os projetistas de sistemas e traduzir programas cscritos em vdrias lingua¬ 
gens dc alto nfvel para uma forma intermediaria comum — o nfvcl ISA — e construir hardware que possa execular programas 
dc nfvel ISA diretamente. O nfvcl ISA define a interfuce entre os compiladores c o hardware. E a linguagem que ambos tćm 
dc entender. A rclaęao entrc os compiladores. o nfvel ISA e o hardware sao mostrados na Figura 5.1. 

O ideał 6 que. ao prujetar uma nova maquina. os arquitctos conversem com os escritorcs de compiladores e tam be m com 
os engenheiros de hardware para descobrir quais earaeteristicas cada um dclcs quer no nfvel ISA. Se os escritorcs dc compila- 
dores quiserem alguma earactcristica que os engenheiros nao podcm implemcntar de modo cficientc em cuslo (por exemplo, 
uma instruęao dcsvic-c-processe a folhu de pagamentu), ela nao entra no hardware. Da mesma forma. sc a turmą do hardware 
tiver alguma nova earactcristica elegante que qucr acrcsccntar (por excmplo, uma memória na qual as palavras cujos enderc- 
ęos sao mimeros primos sejam super-rdpidas), mas a turmą do software nao conseguc imaginar como gerar código para usd-la. 
ela nao possani da prancheta. Após muita ncgociaęao e simulaęao. surgini uma ISA pcrfeilanientc otimi/ada para as lingua¬ 
gens dc programaędo prctendidas. e sera implcmentada. 

Isso ć a teoria. Agora vamos a triste realidade. Quando surge uma nova maquina. a pnmeira pergunui que todos os clicn- 
tes potcnciais tazem e: “Ela ć compativel com sua anteccssora?". A segunda e: “Ela pode executar meu sistema operacional 
antigor. A tcrceira e: “Ela cxccutard todos os meus programas dc aplicaęao exislcntes sem modiiicaędo?". Se quaiqucr uma 


Figura 5.1 

0 nivel ISA e a intertace 
entre os compiladores e o 
hardware. _ 
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dessas respostas tor ‘nao’, os projetistas terao muitas explicaęóes a Jar. E raro que os elientes se disponhani a jogar 
fora todos os seus programas andgos c comcęar ludo de novo. 

Essa aritude pressiona muito os arquiteios de computadores a inanter a mesma ISA entre modelos, ou ao 
menos toma-la coinpaiirel com os modeios ameriores. Com isso queremos dizer que a nova mdquina deve ser 
capaz de executar programas andgos sem alteraęao. Contudo, e totaJmente aceitdvcl que a nova maquina tenha 
novas instruęóes e outras caracterfsticas que só possam ser expJoradas por novo software. Em termos da Figura 5.1, 
contanto que os projetistas garantam que a ISA seja compatfvel com os modelos anteriores. eles tem loda a liber- 
dade para fazer o que quiserem com o hardware porquc, na vcrdadc, qua.se ninguem sc importa muito com o hard¬ 
ware real (ou nem mesmo sabe o que ele faz). Eles podem passar de um projeto microprogramado para execuęao 
direta, ou adicionar paralclismo ou facilidades superescalares ou qualquer o utrą coisa que queiram, contanto que 
mantenham a coinpatibilidade com a ISA anterior. A meta e garanrir que velhos programas sejam executados na 
nova maquina. Entiio. o desafio se toma construir muquinas melhores sujeitas limitaęóes da compadbilidade. 

0 quc acabamos de dizer nao tem a intenęao dc dar a entender que o projeto da ISA nao importa. Urna boa 
ISA tem significadvas vantagens em relaęao a urna ruim, em particular quando se trata de comparar capacidade 
computacional bruta com custo. Se quanto ao mais os projetos forem equivalentes. as ISAs podem ser responsdveis 
por urna diferenęa dc atć 25% em desempenho. O que qucrcmos deixar claro e quc as foręas do mercado dificul- 
tam (mas nao impossibilitam) descartar uma ISA antiga c introduzir urna nova. Nao obstante. de vez em quando 
surge uma nova ISA de uso geral e, em mercados especializados — por exemplo, sistemas embutidos ou processa- 
dores multimidia —, elas ocorrem com muito mais freqiiencia. Por conscqiićnciu, ć importantc entender o projeto 
da ISA. 

O que faz uma ISA ser boa? Ha dois fatores primordiais. Em primeiro lugar, uma boa ISA dcve deftnir um 
conjunto de instruęóes que pode ser implementado com eficiencia em tecnologias atuais e luturas, rcsultando em 
projetos efetivos em custo por varias geraęóes. Um mau projeto e mais diftcil de implementar c pode exigir um 
numero muito maior de portas para implementar um processador e mais memória para executar programas. Alem 
disso, a exceuęao pode ser mais lenta porque a ISA encobre oportunidades de sobrepor operaęóes, exigindo proje¬ 
tos muito mais solisticados para obrer desempenho cquivalente. Um projeto que aproveita as peculiaridudes de 
determinada tecnologia pode ter um fixito fugaz e produzir uma unica gcraęao de implementaęóes efetivas em custo 
e entao ser ultrapassado por ISAs mais avanęadas. 

Em segundo lugar, uma boa ISA deve fomecer um a!vo claro para o código compilado. Rcgularidadc e com- 
pletude dc uma faixa de opęóes s3o aspcctos importanies que nem sempre estao presentes em uma ISA. Essas pro- 
priedades sio importantes para um compilador, que pode ter problemas para escolher a melhor opęao entre altcrna- 
tivas limitadas, em particular quando algumas altemativas aparentementc óbvias nao sao permitidas pela ISA. Em 
resumo, uma vez que a ISA e a interface entre o hardware e o software, ela tem de contcntar os projetistas de hard¬ 
ware (Mcii de implementar com eficiencia) e os projetistas de software (fdcil de gerar bom código para ela). 



5.1 Visao geral do nivel ISA 

Vamos eomeęar nosso estudo do mvel ISA perguntando o que ele e. Essa pergunta pode pareccr simples, mas 
6 mais complicada do que poderfamos imaginar 3 primeira vista. Na seęao seguinte abordaremos algumas dessas 
questoes. Em seguida vamos examinar modelos de memória, registradores e instruęóes. 

5.1.1 Propriedades do nivel ISA 

Etn princfpio, o nfvel ISA e definido pelo modo como a maquina se apresenta u um programador de lingua- 
gem de maquina. Uma vez que mais ningućnt (normal) faz muita programaęao em linguagem de mtiquina. vamos 
redefinir isso c dizer que código de ntvcl ISA ć o que um compilador produz (ignortuido. por enquanto. chamadas 
ao sistema operacional e linguagem de montagera simbólica). Para produzir código de nivel ISA, o escritorde com¬ 
pilador tem dc saber qual e o modelo de memória, quais e quantos sao os registradores. quais tipos de dados e ins- 
truęóes estao tlispontvets e assiin por dianie. O conjunto de todas essas inlormaęóes deline o nivel ISA. 

Dc acordo com essa detinięao. questóes como se a microarquitetura ć tnicroprogramada ou nao, se ela tem 
paralelismo ou nao. se ela e superescalar ou nao, e assim por diantc. nao fazem parte do nive! ISA porque nao sao 
visiveis para o escritor de compilador. Todavia, essa obscrvaęao nao e de todo verdadeira, porque algumas dessas 
propriedades afetam o desempenho e isso e vistvel para o escritor do compilador. Considerc, por exemplo. um pro¬ 
jeto superescalar que pode emitir instruęóes uma atras da outra no mesmo cięto, contanto que uma seja uma instru- 
ęao de numero inteiro e outra de ponto llutuante. Se o compilador altemar instruęóes de numero inteiro e instruęóes 
dc numero dc ponto llutuante. obiera desempenho visivelmente melhor do que se nao fizer isso. Assim, os detalhes 
da operaęao superescalar sao visfveis no nfvel ISA, portanto a scparaęao entre as camadas nao e t3o clara como 
poderia parecer de inicio. 

Para algumas arquiteturas. o nivel ISA e especificado por um documento formal de defmięao. muitas vczes 
produzido por um consórcio do setor. Por exemplo. a V9 SPARC (SPARC Vcrsao 9) tem uma defmięao oftciul 
(Weaver e Germond. 1994). A linalidade de um documento de defmięao e possibilitar que diferentes implementa- 
dores eonstruam a miiquina e todas elas execuiem exauimente o mesmo software c obtenham exatamente os mes- 
mos rcsultudos. 
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No caso da SPARC, a ideia e pcrmitir que varios fabricantes dc chips produzam chips SPARC idćnticos era 
termos funcionais. c difercntcs apcnus em descmpenho c preęo. Para essa ideia dar certo, os fabricamcs de chips 
tern dc saber o quc urn chip SPARC deve fazer (no nivcl ISA). Por conscguinte. o documento de detinięao informa 
tjual e o modclt) da memória, quais registradores cstilo prcscntcs. o quc as instruęóes fuzem e assim por dianie, mas 
nao qual ć o aspccto da microarquitelura. 

Esscs documentos de definięuo eontem scęóes normativas. que impoem requisitos, e seęóes Informativus, 
cuja intenęao ć ajudar o leilor. mas que nao sao parte da detinięao format. As seęóes normativas usam constante- 
mente palavras como deve. nóo pode e deveria para requercr. proibir e sugerir aspectos da arquitetura. rcspectiva- 
mente. Por exemplo. urna sentenęa como 

Executar um opcodc rescrvado <leverd causar u ma acccędo. 

informa quc, sc um programu cxccutar um opcode que nao e definido, cle dcve causar uma cxccęao e nao pode 
ser apenas ignorado. lima abordagcm altemativa poderia ser dcixar essa que.stao em abcrto, quando entilo a scntcn- 
ęa poderia ser 

0 cfdlo da cx ccuędo dc um opcodc rcscn/ado ć definido na implcmcmaędo. 

Isso significa que o cscritor do compilador nao pode contar com qualqucr comportamento panicular, o que da 
a diferentes impicmcntadores a liberdudc dc escolher opęócs diferentes. A maioria das especificaęóes de arquitclu- 
ra e acompanhada dc conjuntos de testes para vcrificur sc uma implemcntaęuo quc sc atirma compalfvel com u espe- 
cificaęao rcalmcntc o e. 

O motivo por que a V9 SPARC tem um documento quc detine scu nfvel ISA ć claro: todos os chips V9 SPARC 
exccutarjo o mesmo software. Nao hd nenhum documento format quc delina o nfvel ISA do Pentium 4 porquc a 
Intel nao qucr abrir a guarda para que outros fabricantes produzam chips Pentium 4. Na verdade. a Intel ja apelou 
para a justięa pora tentar impedir que outros fabricantes clonassem seus chips, mas perdcu a causa. 

Uma outra propriedade importantc do nfvel ISA e que na maioria das mdquinas ha no mrnimo dois modos. O 
modo niiclco (kernel) deve cxccutar o sistema operacional c permite que todas as instruęóes sejam exccutadas. O 
modo usuario dcvc cxecutar programas dc apiicaęao e nao permite que certas instruęóes sens(veis, como as quc 
manipulant a cache diretamente. sejam executadas. Neste capitulo focalizaremos primordialmcntc instruęóes e pro- 
priedades do modo usuario. 

5.1.2 Modelos de memória 

Todos os computadores dividem a memória em cćlulas que tem endereęos consecutivos. O tamanho de celula 
mais comum no memento e 8 biLs, mus cclulas de 1 bit a 60 bits ja foram usadas no passudo (vcja a Tabela 2.1;. 
Uma cćlula de 8 bits e denominada byte. A razao para usar bytes de 8 bits e que os caractcres ASCII tem 7 bits, 
portanto. um caractere ASCII ntais um bit de paridade cabem em um byte. Se o UNICODE vier a dominar o setor 
nu futuro, entao os futuros computadores poderao ser buseados cm unidades dc 16 bits com numeraęio sucessiva. 
Afinal, 2 4 i um numero ainda mais interessante do que 2 3 , uma vcz que 4 e uma potencia de 2 e 3 nao i. 

Em geral os bytes sao agrupados em palavras de 4 bytes (32 bitsj ou 8 bytes (64 bits) com instruęóes disponi- 
veis para manipular pulavras inteiras. Muitas arquitcturas requerem quc as palavras sejam alinhudus em suas fron- 
teiras naturais; assim, por exemplo. uma palavra de 4 bytes pode comeęar no cndercęo 0,4, 8 etc., mas nao no ende- 
reęo 1 ou 2. Dc modo scmelhantc. uma palavra dc 8 bytes pode comeęar no cndercęo 0, 8 ou 16. mas nao no 
endereęo 4 ou 6. O alinhamento dc palavras dc 8 bytes e ilustrado na Figura 5.2. 

O alinhamento costuma ser cxigido porque memórius luncionam com mais cftciencia desse modo. O Pentium 
4. por cxemplo. quc busca 8 bytes por vcz na memória, usa endereęos ffsicos de 36 bits. mas tem somcnlc 33 bits 
dc endereęo, como mostra a Figura 3.41. .Assim, o Pentium 4 nao poderia fazer uma referencja nao alinhada a 
memória nem quc quiscsse. porquc os 3 bits de ordcm baixa nao estao espccificados explicitamcnte. Elcs sao sem- 
pre Os. o que obriga todos os endereęos de memória a ser multiplos dc 8 bytes. 

Contudo, esse rcquisito dc alinhamento iis vezcs causa problemas. O Pentium 4 permite quc programas ISA 
relercnciem pulavras quc comcęam em qualquer cndercęo. uma propriedade quc remontu ao 8088. quc tinha um 
barramenio de dados de I byte de larguru — e. assim, nenhum requisito de alinhamento de rcfer&ncias a memória 
cm fmnteiras dc 8 bytes. Se um programu Pentium 4 ler uma palavra de 4 bytes no cndercęo 7. o hardware tem de 
fazer uma rcfcrćncia ii memória para obter os bytes dc 0 a 7 c uma segunda referenda ii memória para obter os bytes 


Figura 5.2 

Palavra de 8 bytes em 
uma raemóna linie 
endian. (a) Alinhada. |b| 
Nao alinhada. Algumas 
maąuinas reąuerem que 
palavras na membna 
se|am alinhadas._ 
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dc 8 a 15. ilntao a CPU tem dc cxtrair os 4 bytes rcquisilados dos 16 bytes lidos da mcmória e monui-los na ordcm 
corrcta para formar unia palavra dc 4 bytes. 

Ter a capacidade de icr palavras cm endereęos arbitnirios rcqucr lógica extra no chip. o que o toma maior c 
mais caro. Os engenheiros projetistas adoruriam livrar-sc dcla e siniplesmentc cxigir quc todos os programas fizes- 
sem refcrencias i memória alinhailas por palavra. O problemu e que, sempre quc os engenheiros dizem "E qucm se 
importu com exccutar programas 8088 antigos e bolorcntos que referendom a mcmória de modo crradoT, o pes- 
soal de marketing icm urna resposta sucinta: “Nossos clientcs”. 

A maioria das maquinas tem urn linico espaęo dc endereęo linear no nfvel ISA. que sc estende do endereęo () 
atć algum maximo, freqUentcnientc 2 ri bytes ou Z" 4 bytes. Contudo, algumas maquinas tem cspaęos de endereęos 
separados para instruęóes c dados. de modo que urna busea de instruęao no endereęo 8 vai para urn espaęo de cndc- 
rcęo diferente do quc urna busca dc dados no endereęo 8. Esse esquema e mais cotnplcxo do que ter um tinico espa¬ 
ęo dc endereęo, mas tem duas vantagens. Em primeiro lugar, toma-se possivcl ter 2 J2 bytes de programu e 2 i2 bytes 
adicionais dc dados usando somentc endereęos de 32 bits. Em segundo lugar. como todas as cscritas vao uutomati- 
camentc para o espaęo dc dados, lica impossivcl sobrescrcvcr acidentalmcnte o programu, eliminando assim urna 
fonie de bugs de programas. 

Notę que ter um espaęo dc endereęos sepurado pura instruęóes e dados nuo ć o inesmo que ter urna eache de 
nfvel 1 dividida. No primeiro caso, a quantidade total de espaęo de endereęo e duplicada e leituras para qualquer 
endereęo determinudo duo rcsultados diferentes, dependendo dc a leituru ser de urna instruęao ou dc urna palavra 
dc dados. Com urna cachc dividida, ainda ha apenas um espaęo dc endereęo, só quc caches diferentes armozenum 
partes diferentes desse espaęo. 

Ainda um outro aspccto do modclo dc memória dc mvcl ISA e a scmantica da mcmória. E natural esperar que 
urna instruęao LOAD quc ocorrc após urna instruęao STORĘ, e que referenda o mesmo endereęo. retomard o valor 
quc acabou dc ser armazenado. Todavia, como vimos no Capitulo 4, cm muitos projetos as microinstruęócs sao reor- 
denadas. Assim. ha um perigo rcal de que a memória nao tera o comportamento esperado. O problemu lica ainda 
piór em um multiprocessador. no qual cada urna das varias CPUs envia uma scqiiencia de rcquisięócs de cscrita e 
leitura (possiveImente reordenadas) a uma memória eompartilhada. 

Projetistas de sistemas podem adotar qualqucr uma das diversas abordagens pura esse problemu. Em um extrc- 
mo, todas as rcquisięócs dc memória podem ser scrializadas, portanto cada uma ć concluida antes de a próxima ser 
emitida. Essa estratćgia prcjudica o desempenho. mas resulta na semflntica dc memória mais simples. Todas as opc- 
raęóes sao exccutadas estritamente na ordcm do programu. 

No outro cxtremo. nao sao dadas garantias dc espćcie alguma. Para foręar uma ordcnaęao na memória, o pro- 
grama deve cxccutar uma instruęao SYNC, quc bloqucia a emissao dc todas as novas operaęóes de memória atć que 
todas as anteriores tenham sido conclufdas. Esse projeto atribui uma grandę carga aos compiladores. porque eles 
tem de entender, com detalhes. como a microarquitctura subjaecnte funciona. cm bora dć aos projetistas de hardwa¬ 
re a maxima liberdadc para otimizar a utilizaęao da mcmória. 

Tambćm sio possiveis modclus de memória inlcrmediarios nos quais o hardware bloqueia automaticamcnte a 
emissao de ccrtas refcrencias i memória — por cxcmplo, as que envolvem uma dependfincia RAW ou WAR — mas 
nao bloqueia outras. Embora seja um aborreeimento ter todas essas peculitiridades causadas pela microarquitetura 
espostas no nivcl ISA (ao menos para os escritorcs de compiladores c programadnres de linguugcm de montagem), 
essa & a tcndencia. Elu e causada pelas implemcntaęócs subjaccntcs como reordenuędo dc microinstruęócs, puralc- 
lismo profundo, varios nr vcis de cachc c assim por dianie. Veremos mais cxemplos desses efeitos nao naturais adian- 
tc neste capitulo. 

5.1.3 Registradores 

Todos os computadores tem alguns registradores visiveis no nivel ISA. Eles estao la para controlar a cxecuęao 
do programu, reter rcsultados temporarios e para outras linalidades. Em geral. os registradores visfvcis no nfvel dc 
microarquitetura. como TOS o MAR na Figura 4.1. nao sao visiveis no mvel ISA. Contudo, alguns deles, como o 
contador dc programu c o poulciro dc pilhu, sao visivcis cm amtxis os uivcis. Por outro lado, registradores visivcis 
no mvel ISA sio sempre visfveis no nivcl da microurquitctura, ja quc e ali quc sao implantados. 

Registradores de mvel ISA podem ser divididos cm duas categorias: registradores de uso espeeial e registra¬ 
dores de uso geral. Os registradores de uso espeeial ineluem eoisas como o contador de programu c o ponteiro dc 
pilha, bem como oulros registradores com uma funęao cspecifica. Por comparaęao. os registradores dc uso geral 
estiio ali para contcr as vari:ivcis locais tundamcntais c rcsultados intermedianos de calculos. Sua funęao principal 
ć prover accsso rapido a dados rnuito usados (basicamentc evitando acessos a memória). Maquinas RISC, com suas 
CPUs rapidus c mcmónas (rclutivumcnte) Icntas. costumam ter ao menos 32 registradores dc uso geral c a tcnden¬ 
cia em novos projetos dc CPU e ter ainda mais. 

Em algumas muquinas. os registradores de uso geral sao completamente simetricos c intcrcambiaveis. Se as 
registradores forem todos cquivalentes. um compiiador pode usar R1 para reter um rcsultado temponirio. mas tam- 
bem pode usar. com a mesma propriedade, R25. A escolha de registrador nim importu, 

Todaviu, cm outras maquinas, alguns dos registradores dc uso geral podem ser um tanto cspcciais. Por excm- 
plo, no Pentium 4 hii um registrador denommudo EDX que pode ser usado como registrador geral. mas quc lumbem 
rccebc metade do produlo cm uma multiplicaęao e retem metade do dividendo cm uma divisiio. 



J 

Mesmo quando os rcgistradores ile uso geral sao completamente intercambićveis. e comum quc o sistema ope- 
racional ou compiladorcs adotem convenęócs sobre como eles sao usados. Por exemplo, alguns rcgistradores podem 
conter par&metros para procedimentos chamados e outros podem ser usados como rcgistradores trunsitórios. Se um 
eompilador eolocar urna variavel local impoitante em R1 e dcpois chamar um procedimento dc biblioteca que pensa 
que R1 e um registrador transitório disponfvel pura cle, quando o proccdimento de biblioteca retomar. Ri podcrd 
conter lixo. Se houver convenęóes gerais c abningentes sobre como os registradores dcvem ser usados. aconselha- 
mos os compiladorcs e progrumadores de linguagem dc montagcm a adotd-Ias para evitur problemas. 

Alćm dos rcgistradores dc nńrcl ISA visfveis para programas usudrios. ha semprc urna quantidade substaneial 
de rcgistradores dc uso espccial disponivcis somcnte em modo nticlco. Esses rcgistradores controlam as varias 
caches, memória, dispositivos de E/S e outros caraetensticas dc hardware da mdquina. Eles sao usados somente pelo 
sistema operacional, portanto compiladorcs e usuarios nao tent dc tomar conhecirnento delcs. 

Um registrador dc controlc, quc ć algo como um hibrido de nucleo/usudrio, ć o registrador de flags ou PSW 
(Program Status Word — pulavru de cstudo do programu). Esse registrador contćm vdrios bits diversos dc que 
a CPU prccisa. Os bits mais importantes sao os códigos de condięiio. Esses bits sao ajustados em todo cielo dc ULA 
c rcflctem o estado do rcsultado da operaęuo mais recente. Entre os bits de eondięao tfpicos estdo: 

N — Marcado quando o rcsultado foi Negalivo. 

Z — Marcado quando o rcsultado foi Zero. 

V — Marcado quando o rcsultado cxcedeu a capacidade da ULA (oVertlow) 

C — Marcado quando o rcsultado causou um vai-um do bit da extrcma csquerda. 

A — Marcado quando houve um vai-um do bit 3 (vai-um auxiliar) 

P — Marcado quando o rcsultado teve paridadc par. 

Os códigos dc condięiio siio importantcs porque as instruęóes de comparaęao e desvio condicional — isto ć, 
instruęóes dc salto condicional — os usam. Por excmplo. a inslruęiio CMP normalmcntc subtrai dois opcrandos c 
ajusta os códigos dc eondięao com basc na difercnęa. Sc os opcrandos forem iguais, cntao a difercnęa sera /ero c o 
bit de eódigo de condięiio Z no registrador PSW sera marcado. Urna instniędo BEQ (branch equal) subscqiicnte testa 
o bit Z c desvia se cle estivcr marcado. 

A PSW contćm mais do que apcnas códigos dc condięiio, mas o contcudo total varia dc mdquina para mdqui- 
na. Campos adicionuis tfpicos sao modo da mdquina (por cxemplo, usudrio ou nucleo), bit de raslrcamento (usados 
para depuraęao), nfvcl de prioridadc da CPU c estado dc habilitaęao de interrupędo. Muitas vezcs a PSW pode ser 
lida cm modo usudrio, mas alguns dos campos podem ser escritos soincntc cm modo nticlco (por exemplo. o bit de 
modo usuario/nuclco). 

5.1.4 Instruęóes 

A principal caracteristica do n(vel ISA" ć seu conjunto de instruęóes de mdqutna. que controlam o quc a 
mdquina pode fazer. Hd semprc instruęóes LOAD c STORĘ (de uma forma ou de outra) para mover dados entre 
a memória c rcgistradores c instruęóes MOVE para copiar dados entre os rcgistradores. Instruęóes aritmćticas 
es tao semprc presentes, assim como instruęóes booleanas e instruęóes para oomparar itens dc dados e desviar 
eonforme os rcsulludos. Ja vimos algumas instruęóes ISA tfpicas (vcja a Tabela 4.2) e cstudarcmos muitas mais 
neste capftulo. 

5.1.5 Visao geral do nivel ISA do Pentium 4 

Nestc capftulo discutircmos tres ISAs muito difercntcs: a IA-32 da Intel, incorporada no Pentium 4: a arquitc-' 
tura SPARC Vcrsiio 9 implementada nos proeessadores UltraSPARC, e a 8051. A intenędo nao ć dar uma deseriędo 
exaustiva de quaisqucr das ISAs, mas denumstrur aspeetos importantcs de urna ISA e mosirar como esses aspeetos 
p«xlent variar de uma ISA para outra. Vamos eomcęar com o Pentium 4. 

O pmeessador Pentium 4 evoluiu por muitas geraęóes. e sua linhagem pode ser rastrcada atć alguns dos mais 
antigos microprocessadorcs que ja toram construfdos. como diseutimos no Capftulo I. Embora a ISA btisiea man- 
tenha total suporte para esceuęao tle programas escritos para os proeessadores 8086 c 8088. que tinhain a raesma 
ISA. tombćm contćm sobras do 8080, uin pmeessador de 8 bits popular na dćcada de 1970. O 8080. por sua vcz. 
sofreu forte influeneia das rcstrięóes dc compatibilidude com o pmeessador 8008, mais antigo ainda, que era basca- 
do no 4004. um chip de 4 bits usudo na ćpoca em que »>s dinossauros vagavam pcla Terra. 

Do porno de vista de software, o 808ft e o 8088 oram miiquinas normais de 16 bits, embora o 8088 tivesse bar- 
ramento dc dados dc 8 bits. O sucessor delcs, o 80286, tambem era uma maquina de 16 bits. Sua principal vanta- 
gettt era um espaęo de endercęo maior. embora poucos programas o usassem porque ele consistia em 16.384 seg- 
mentos de 64 KB em vcz de uma memória lincar de 2 J0 bytes. 

O 80386 fol a primeira miiquina dc 32 bits da familia Intel. Todas as mdquinax subscqUentes — 80486. 
Pentium. Pentium Pro. Pentium II. Pentium III. Pentium 4, Celeron. Xeon. Pentium M. Ccntrino etc. — tern. em 
essćncia. a mesma arquitetura de 32 bits do 80386. denominada IA-32, portanto ć essa arquitctura que Ibcalizarc- 
mos aqui. A liniea aileraęao importante na arquitctura desde o 80386 foi u introduęao das instruęóes MMX. SSH c 
SSE2 em versóes posteriorcs da serie Pentium. Essas instruęóes tem alto grau dc espccializaęao e foram projetadas 
pura mclhorar o desempenho em aplicaęóes mullimidia. 
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O Pentium 4 tcm tres modus de operaęao. dois dos quais o lazem agir como um 8088. No modo real. todas 
as caracterfsticas que forant acrcsccntadas desde o 8088 sao desligudas e o Pentium 4 se comporta como um sim- 
ples 8088. Sc algum programu fizer algo errado, a maquina intcira falha. Se a Intel tivesse projetado seres huraa- 
nos, ela tena inscrido um bit quc os taria voltar ao modo gorila — grandę parte do cerebro desativada, niio falaria, 
dormiria em arvores, comeria muitas bananas etc. 

Um degrau acima e o 8086 modo virtual. quc possibilita executar antigos programas 8088 de modo protegi- 
do. Nessc modo, um sistema operaeional real esta no controle de toda a maquina. Para executar um programu 8088 
antigo, o sistema operaeional cria um ambiente isolado especia! que age como um 8088, exceto que, se seu progra¬ 
mu falhar, o sistema operaeional e avisado. em vez de a maquina falhar. Quando um usuario do Windows inicia urna 
janela MS-DOS, o programu ali executado e iniciado cm modo virtual 8086 para proteger o próprio Windows con¬ 
tra o mau comportamento de programas MS-DOS. 

O modo linal e o modo protegido, no qual o Pentium 4 realmente age como um Pentium 4 em vez de um 8088 
muito caro. Ha quatro n/veis de privilegio disponiveis, controlados por bits na PSW. O mvel 0 corrcsponde ao modo 
nucleo em outros computadores e tern acesso total ii maquina. E usado pelo sistema operaeional. O ntvel 3 e para 
programas usuarios. Ele bloqueia o acesso a certas instnięócs crilicas e eonrrola registradores para impedir que um 
programu usuario trapaceiro faęa a maquina inteira falhar. Os niveis 1 e 2 sao rarainente usados. 

O Pentium 4 tcm um esęaęo de endereęo enorme, com memória dividida em 16.384 segmentos, cada um indo 
do endereęo 0 ao endereęo 2 a — 1. Contudo, a maioria dos sistemas operacionais (incluindo o UN1X e todas as ver- 
sCes do Windows) suportam apenas um segmento; portanto, o quc a maioria dos programas de aplicaęao ve, realmen- 
tc, e um espaęo de endereęo linear de 2 32 bytes e, iks vczes, parte destc espaęo esta ocupado pelo sistema operaeional. 
Todos os bytes no espaęo de endereęo tem seu próprio endereęo, sendo quc as palavras tem 32 bits dc comprimcnto. 
Palavras sao armazenadas em fermato litlle eruiitui (o byte menos significativo tem o endereęo mais baixo). 

Os registradores do Pentium 4 sao mostrados na Figura 5.3. Os quatro primeiros registradores, EAX, EBX, ECX 
e EDX, sao registradores de 32 bits. mais ou menos de uso geral. embora cada um tenha suas próprias peculiaridades. 
O EAX 6 o principal registrador aritmćtico; o EBX ć bom para conter pontciros (endereęos de memória); o ECX desem- 
penha um papel nu execuęao de laęos. O EDX 6 nccessdrio para multiplicaęao e divisQo e, junto com o EAX. retem 
produtos e dividcndos de 64 bits. Cada um desses registradores contćm um registrador de 1 fi bits nos 16 bits dc ordem 
baixa e um registrador de 8 bits nos 8 bits de ordem baixa. Esscs registradores facilitam a manipulaęao dc quantida- 
des de 16 e 8 bits, respcctivamente. O 8088 e o 80286 tinham só os registradores de 8 e 16 bits. Os registradores dc 
32 bits forum adieionados com o 80386, junto com o prefixo E, quc representa Extended (estendido). 

Os tres seguintes sao, de certa forma, de uso geral, porćm com mais peculiaridades. A taręfa dos registradores 
ESI e EDI e conter pontciros para a memória, em especial paru as instruęóes de manipulaęao de cadeias por hard¬ 
ware, nas quuis o ESI aponta para a cadeia de fontc e o EDI aponta para u cadeia de destino. O registrador EBP tam- 
bćm <5 um registrador ile pontciro. E nomiaimente usado para apontur para a base do quadro de pilha corrente, o 
mesmo quc LV em IJVM. Quando um registrador como EBP e usado para aponlar paru a base do quadm de pilha 
local, costuma ser denominado pontciro de quadro. Por fim. o ESP e o ponleiro de pilha. 



figura 5.3 

Registradores primarios 
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O próximo grupo de rcgistradores, CS ati GS, siło registradores de segmento. Ati certo ponto, eles sito tri- 
lobites elctrdnicos, fósseis anligos que restaram de unia ipoca ein que o 8088 tentava endercęar 2 J " bytes dc 
memória usando endcreyos dc 16 bits. Basta dizer que. quando o Pentium 4 e ajustado para ttsar um dnico espa- 
ęo de endereęo linear de 32 bits, eles podeni ser ignnrados sem problema algum. O seguinte e o EIP. que i o con- 
tador de programa (Extended Instruction Pointer — ponleiro de instruę«io estendido). Por lim. chegamos ao 
EFLAGS. quc i o PSW. 

5.1.6 Visao geral do nivel ISA da UltraSPARC III 

A arquitetura SPARC foi apresentada pela primcira vez cm 1987 pela Sun Microsystems. Essa arquitetura foi 
urna das primeiras a ser comcrcinli/.ada corn o rótulo dc aiquitetura RISC. Era baseada nas pesquisas realizadas em 
Berkeley na dćcada de 1980 (Paltcrson, 1983; Patlerson e Siquin, 1982). A SPARC original era urna arquitetur:i de 
32 bits. mas a UltraSPARC III i urna mdquina dc 64 bits, baseada na Versao 9 da arquiletura. que e a que descre- 
vcremos nestc capltulo. Para inanter a coerincia com o resto do livro. aqui vamos nos referir a UltraSPARC III mas. 
no nfvcl ISA, todas as UltraSPARCs sao idenliens. 

A estrutura de memória da UltraSPARC III i liinpa e sitnples: a memória cndereęńvel ć um arranjo linear de 
2 M bytes. Infelizmente, essa memória i Ido grandę — 18.446.744.073.709.551.616 bytes que nenhuma das 
tndquinas existentcs boje pode implemcnUi-la. As impleincntayóes correntes tim um limite para o tamanho do ende- 
reęo que podem acessar (2 44 bytes na UltraSPARC III), mas isso crescera nos modelos futums. A ordcm padrao 
{tlefaull ) dos bytes i big eiulian. mas pode ser transfomtada em linie endiaii com o ajustc de um bil na PSW 

fi importante quc a ISA tenha um limite maior do que as implcmentaęóes necessitam, porque ć quasc certo que 
futuras implementaęóes precisarao aumentar o tamanho da memória que o processador pode acessar. I 'm dos próbie- 
mas tnais serios encontrados por arquiteturas bem-succdidas i que suas ISAs limitavam a quantidade de memória 
endercętWel. Na ciSncia da computaęao, o unico erro quc nao pode ser contomado i n3o ter bits sulicientes. Um dia 
nossos nctos nos perguntarSo como, antigamentc, os computadores conseguiam fazer algo tendo somente endcreęos 
de 32 bits c apenas 4 GB de memória real, quando um joguinbo mćdio precisa de 8 GB só para ser inicindo. 

A ISA SPARC e limpa, entbora a organizaęslo dos registradores seja um lanto eomplexa. em unia tenlativa de 
lomar as chamadas de proecdimento mais eficientes. A cxperidncia tern moslrado que a organizaęao de registrado¬ 
res nilo vale o trabalho que da, mas nquela antiga regra dc compatibilidade nUo permite que nos livremos dela. 

A UltraSPARC III tern ilois grupos de registradores: 32 registradores de uso geral de 64 bits e '2 registrado¬ 
res de ponto dutuante. Os registradores de uso geral siło denominados R0 nić R31, cinbora outros nomes sejam usa- 
dos em eertos contestos. Os nomes e funęóes allemativas dos registradores sao mostrados na Tabela 5.1. 

T«xlos os registradores gerais tętn 64 bits dc largura e. exceto o R0. que na verdade ć 0. podem sei lidos e escri- 
los por lima variedadc de instruęóes de carga e armazenamento. Os usos alribufdos na Tabela 5.1 siło baseados, em 
parte, na convenęao. mas tambóm. em parte, no modo como o hardware os trata. Em geral. nao t s sensato nos des- 
viarmos das utilizaęóes relacionadas na ligura, a inenos que tenhamos um CinturSo Negro em SPAR( Guru’ e real¬ 
nienie, mas realnienie, saibamos o quc estamos fazendo. Cabe ao compilador ou programador a responsahilidade 


Tnhein r» t Registradores gerais da UltraSPARC III 


1 Registrador 

1 Nome alternatlvo 

Funędo | 

R0 

GO 

Travados em 0. Armazenaraentos nele s8o ignorados 

R1 -R7 

G1 -G7 

Centem vanaveis globais 

RR - RI3 

00-08 

Contóm pnrftmetro8 para o procedimento que estś sendo chamado 

n 14 

SP 

Ponteiro de pilha 

R15 

07 

Registrador transitórlo 

RI6-R23 

L0-L7 

Contóm variaveis locais para o procedimento corrente 

R24 - R29 

10-15 

Contim parśmetros que chegam 

R30 

FP 

Ponteiro para a base do quadro de pilha corrente 

R3I 

17 

Contim endereęo de retorno para o procedimento corrente 


< 1 autor refere a um sfmbolo Ue cspceinliraytlo i*m artes marciais. ł|iicn-iuto ili/ci quc esse lipo dc aliiidiidr f rrsmatlo nos mcslres do 
nssunio (N. do R.T.). 
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de garantir que o programu acessc os rcgistradorcs corretamente e efetnc neles o tipo corrcto de aritmetica. Por 
exemplo, e muito fdcil carrcgar ntimeros de ponto flutuante nos rcgislradores gcrais e cntao efetuar adiędo dc 
inieiros neles, uma operaęao que produzira total e absolulo absurdo, mas que a CPU realizara alegrcmente se 
assim for instrufda. 

As variaveis globais sao usadas para retcr conslantes, variaveis e ponteiros que sao necessdrios em todos os 
procedimentos. embora possam ser annazenadas e rcearrcgadas em entradas e saidas de procedimcnto se for preci- 
so. Os registradorcs lx e 0x siło usados para passar pnrametros a procedimentos a lim de evitar referencias ii memó- 
ria. Mais adiante explicaremos como isso funciona. 

Tres registradorcs dedicados sao usados para tinalidades especiais. Os registradorcs FP e SP delimilam o qua- 
dro corrente. O primeiro aponta para a base do quudro corrente c e usado para cndercęar variaveis locais, exatamcn- 
le do mesmo modo que o LV na Figura 4.9. O ultimo indica o topo da pilha corrente e flutua a mcdida que pala- 
vras sao passadas para a pilha e dela rctiradas. Em comparaęao, o FP só muda em chamadas e retomos dc 
procedimento. O tereeiro registrador de uso cspcciul e o R31. E usado por chamadas de procedimcnto para retcr o 
endereęo de rctomo. 

Na verdade, a UltraSPARC III tern mais do quc 32 registradorcs de uso geral, embora somente 32 scjam visf- 
vcis pora o programu a qualquer instantc. Essa caractcristica. conhccida como janelas de registrador. scrvc para o 
suporte eftcientc de chamadas de procedimcnto e e ilustrada na Figura 5.4. A idćia basica ć emular uma pilha. embo¬ 
ra usundo os registradorcs. Isto e. na vcrdade ha vdrios eonjuntos dc registradorcs, assim como hd vdrios quudros 
em uma pilha. Exatos 32 registradorcs gerais siło visfveis a quulqucr instante. O registrador CWP (Currcnt Window 
Pointer — pontciro da jancla corrente) monitora qual eonjunto de rcgistradorcs esta correntcniente em uso. 

A instruęiło de chamuda de procedimcnto oculta o untigo eonjunto dc registradorcs c providcncia um novo con- 
junto para uso do procedimento ehamado. dccrcmcntando CWP. Contudo. alguns rcgistradorcs sao transportados do 
procedimento quc esta chamando para o procedimcnto ehamado. um modo eticiente de passar parametros entre pro¬ 
cedimentos. Essa tecnica funciona pela rcnomcaęao dc alguns dos registradorcs: upós a chamada de procedimcnto. 
os antigos rcgistradorcs dc saida. R8 a R15, ainda esliio visiveia, mas agora siło os rcgistradorcs de entrada. R24 a 
R31. Todaviu, os oitos rcgistradorcs globais niło mudam. isto ć, siło semprc u mesmo eonjunto de rcgistradorcs. 

Diferentc da memória, que ć qua.se infinita — ao menos no que diz respeito ii pilha —. quando procedimen¬ 
tos estiio aninhados muito profundamente, a maquina esgotonł as janelas dc registrador que tem para usar. Ncsse 
ponto o eonjunto mais untigo <5 transportado para a memória para liberar um novo eonjunto. Dc modo semelhante, 
após muitos retomos de procedimento, um eonjunto de registradorcs pode ter de ser buscado na memória. No todo, 
essa complcxidadc 6 um grandę aborrecimcnto e provavclmente nao vale o trabalho que da. Só ajuda quando as cha¬ 
madas niło estiio profundamente aninhadas. 


Figura 9.4 
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A UltraSPARC III tambem icm 32 rcgistnulorcs de ponto dumanie que pudem conter valores dc 32 bits (pre- 
cisiio unica) ou de 64 bits iprecisiio dupla). Ainda e poss!vel usar pares desses registradores para suportar valorcs 
de 128 bits (prceisao quadrupla). 

A attjuiletura UltraSPARC III e unia arquitctura carregue/armazcne. Isto ć, as unieas operaęóes quc accssam 
memória diretamenle sao instruęóes LOAD e STORĘ, instruęóes para mover dados entrc os regisiradores e a raemo- 
ria Todos os opcrandos para instruęóes aritmeticas e lógieas devcni vir de regisiradores, ou ser fomccidos pela ins¬ 
truęao — e nik> pela memória —. e todos os rcsultados devem ser salvos em urn registrador — e niio na memória 

5.1.7 Visao geral do nivel ISA do 8051 

Nosso tercciro excmpIo e o 8051. Dilerente do Pentium 4 — que e primariamente usado em mdquinas de pro- 
pósito geral e eonjuntos de servidores — e da UltraSPARC m — que e primariamente usada em grandes configu- 
raęóes de senridores, em especial servidores multiproeessadores —. o 8051 e usado em sistemas embutidos, como 
sinais de trafego e radios-relógios. para controlar o dispositivo e gcrenciar botóes ou teclas, luzes e outras partes da 
interface de usuario. 

Sua historia e simples e objeiiva. Quando a Intel lanęou a CPU 8080. de urn só chip. foi um sueesso instanta- 
nco. Fabricantes dc lodos os tipos u embutiram em seus produtos e entao perguntaram a Intel se ela poderia produ- 
zir um chip unico que eonlives.se nao somentc a CPU, mas tambem a memória c eontroladorcs de dispositivos de 
E/S para reduzir a quantidade de chips. A Intel aceitou c lanęou o 8048, que logo se tomou o 8051. A despeito de 
sua idadc avunęada. ou talvez por causa dcla. ainda agora ele e amplamentc usado, cm grandę parte porquc e muito 
harato e em sistemas embutidos o preęo e crftico. Nesta seęao, faremos urna brevc introduęao tecnica ao 8051 e a 
seus irmaos e irmas. 

O 8051 tern um unico modo e nenhuma proteęao de hardware, jd que nunca esecuta programas multiplos quc per- 
tcnccm a usuarios potencialmentc hostis. O modelo dc memória e de extrcma simplicidadc. Ha um espaęo de endereco 
de 64 KB para programas e um segundo espaęo de endereęo de 64 KB para dados. Os espaęos de pmgrama e dados sao 
separados para possibilitar a implcmcntaęiio do espaęo dc programu em ROM e do espaęo de dados cm RAM. 

Vilrias implementaęóes diferentes de memória sao possfveis. Na mais simples ha urna ROM de 4 KB para o 
programu e urna RAM de 128 bytes paru dados. Am bas. a ROM e a RAM. estio no chip. Essa quunlidude de memó- 
riu costumn ser suficiente para pequcnas aplicaęócs, e ter loda a memória no chip da CPU representa urna grandę 
vantagcm. O 8052 lem duas vczes mais memória cm chip: 8 KB de ROM e 256 bytes dc RAM. Quando esse mode¬ 
lo e usado por qualquer um dos chips, o programu e gravado na ROM na fdbrica e nunca e altcrado pelo usuario. 

No outro extremo, <5 possivel ter um sistema 8051 com urna memória de programa extemn dc 64 KB ROM 
ou EPROM c adicionuis 64 KB de RAM para dados. Tambem e posstvel ter uma unica RAM cxtcma dc 64 KB 
que contćm o programa, bem como os dados. 

O 8051 ainda suporta um modelo intermedidrio, com os 4 KB mais baixos de memória de programa e 128 
bytes de memória de dados no chip e o resto fora do chip. A voltagem aplicada a ccrtos pinos no chip determinu 
quul desses modclos sera usado. 

O 8051 tern um modo incomum de lidar com regisiradores. A maioria dos programas 8051 e escrilo como se 
ele lives.se oito regisiradores. cada um com 8 bits de largura. Essa ć uma maneiru nalural de ver a CPU porque mui- 
las instruęóes contćm um campo dc 3 bits que espeeifica qual registrador usar. Os registradores sao denominados 
de R0 ate R7. Contudo. lid quatro eonjuntos desses regisiradores, embora em qualquer instantc um deles ć o eonjun- 
to correntc. Um campo de 2 bits na PSW dclermina qua! conjunto de regisiradores e o corrcnte. O real propósito de 
ter varios eonjuntos dc registradores e habtlitar proccssamcnto bem rdpido de intcrrupęóes. Quando ocorre uma 
intcrrupęao. o tratador de intcrrupęao niio prccisa salvar lodos os registradores; pode apenas passur para um conjun¬ 
to dilerente. Essa propriedade toma o 8051 capaz de tratar um mimem muito grandę de intcrrupęóes por segundo, 
uma importunic caractcristica para um proccssador pmjetado para sistemas embutidos de tempo real. 

Uma outra pmpriedadc peculiar dos registradores do 8051 e que eles estilo presentes no espaęo dc memória. 
O byte 0 do espaęo de dados ć equivalente a R0 do conjunto de registradores 0. Quando uma instruędo allera R0 c 
entao mais tardc le byte 0, ela encontra o novo valor de R0 uli. De modo semclhantc. o byte I de memória ć R1 o 
assnn por Jiaiue. Os bytes de inemona de 8 ate 15 correspundem ao conjunto de registradores 1 e assim por dian¬ 
ie. ate o byte 31. quc e R7 no conjunto de registradores 3. Esse arranjo ć mostrado na Figura 5.5(a). 

Diretamenle aeima dos quatro bancos de registradores. nos endcreęos dc memória dc 32 ate 47, estao 16 bytes 
de memória que sao endereędvcis por bits como bits de 0 ate 127. O 8051 tern um conjunto dc instruęóes para 
ajustar, liberar. efetuar operaęóes AND e OR e testar bits especificos endereęados por um rnimero na l'aixa de 0 
ate 127. Essas instruęóes operam sobrc bytes de 32 atć 47. Essas instruęóes sao uteis porque processadores embu¬ 
tidos muitas vezcs precisam de variaveis dc bit para registrar ou ajustar o estado dc interruptores. luzes e outros 
dispositivos de E/S. Essas localizaęóes cspcciais de memória permitem ijuc o 8051 acessc essas voriaveis de bil 
sem buscur bytes inteims. colocando-os em posięao e mascantndo bits nao desejados. Por ser um |ntKessador tao 
pcqucno, cle e extremamcnte bom no gerenciamento de variiiveis boolcanas. 

Alera dos qualro eonjuntos de oito registradores. o 8051 tern uma pcqucna quaniidade de registradores de uso 
especial. dos quais os mais importantes estao ilustrudos na Figura 5.5(b). A PSW centem, da csquerda para a direi- 
la, o bit vai-um. o bit vai-um auxiliar. o conjunto de registradores a usar. o bit de excesso e o bit de puridude. Todos 
csses. exceto o conjunto de registradores. sao ajustados como resultado dc operaęóes aritmeticas. Os campus com 
linhas diagonais cruzadas niio sao dclinidos. 


Capitulo S Nivel de Arquitetura do Conjunto de Instruęao 




Organizaęao Estruturada de Computadores 204 



Memónade 

programa 


Figura 5.5 

|a| Organizaęao de 
memória era ciup para 
o 8051. (b| PTincipaia 


registradores 8051. 
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O rcgistrador IE permite que interrupęóes scjam habililadas ou desabilitadas individual ou eolctivamente. Se o 
bit EA for 0. todas as interrupęóes sao desabilitadas. Desmarcar esse bit possibilita desabilitar quaisquer interrup¬ 
ęóes ulteriores em uma unica instruęao. Marcar o bit habiiita quaisquer interrupęóes cujos bits individuais estive- 
rcm ajusuidos. Os bits E2, El e E0 habilitant ou dcsabilitam os tres canais temporizadores. Com tres eanais tempo- 
rizadores. ute tres contadorcs podem funeionar ao mcsmo tempo e cada um deles gcra uma intcrrupęiio quando 
expira. O bit ES habiiita ou desabiliui a interrupęuo de canal serial. Os outros dois bits habilitam ou dcsabilitam as 
interrupęóes geradas extemamenle. Quando eles sao habilitados. dispositivos extemos ligados a dois dos pinos do 
8051 podem eausar intemipęóes. Quando sóo dcsabilitados. essas interrupęóes nao podem oeorrer. 

O rcgistrador IP detcntiina o m'vel de prioridade de cada interrupęuo. Hu dois mveis. alto e bako. Se uma inter¬ 
rupęuo dc buixa prioridade estivcr sendo atendida. cla pode ser interrompida por uma dc alta prioridade, mas nao o 
conlririo. Quando um bit i marcado nesse easo. a interrupęao correspondente e ajustada para aita prioridade; easo 
contrario. ela e de baku prioridade. 

O rcgistrador TCON cnntroia os temporizadores 0 e 1, quc sao os principais. Os bits Ol e 00 sao ajustados por 
hardware quando o temponzador correspondente transbordar. Os bits R1 e R0 sao os bits dc controle dc execuęao, 
que permitem que o programa ligue e desligue os temporizadores por software. Os outros bits estao relacionados 
com acionamento na borda versus acionamento no nfvel para ambos os temporizadores. 

O rcgistrador finał. TMOD, determina o mudo de cada temporizador (8 bits, 13 bits ou 16 bits). sc cle sera 
um temporizador verdadciro ou apenas um conlador, e atć que ponto os sinais de hardware podem controlar os 
temporizadores. Outros registradores. niio mostrados, estao relacionados com gerenciamcnto de energia e con¬ 
trole da porta serial. 

Todos os registradores especiais mencionados anteriormente c alguns outros, ineluindo o acumulador c as por- 
tas de E/S. estao localizudos nu laka de memória 128 a 255. Eles podem ser accssudos exatnmenle como a memó¬ 
ria. do mesmo modo que os R0 ate R7 podem ser acessados. Por excmplo. o acumulador. que ć usado na maioria 
das instruęócs aritmeticas. estd localizado no endereęo 240. No 8052. que tern memória real nu faixa de 128 a 255. 
os registradores especiais sc sobrcpócm ao espaęo de memória. Quando e usado endcrcęamento direto no 8052. os 
registradores especiais sao endcreęados. ao passo quc rcfcrćncias indiretas ii memória i viu pontciro cm um registra- 
dor) vilo para a RAM real. 


5.2 Tipos de dados 


Todos os computadores prccisam dc dados. Na vcrdade, ha muitos sistemas dc computaęao cujo unico propó- 
sito ć proccssar dados finuncciros. comerciais. cientfficos, de engenharia ou outros. Os dados tdm de ser represen- 
tados dc alguma forma espccifica no interior do computador. No nivcl ISA sao usados varios tipos dc dados difc- 
rentes. quc serao explicados a seguir. 

Urna questao fundamenta! e se ha ou nao suportc de hardware para um tipo purticulur dc dados. Suportc de 
hardware signilica que uma ou mais instruęóes esperam dados em um formato particular e o usuario nuo tern liber- 
dade de escolher um formato dilercnte. Por exemplo. os contadorcs tćm o habito peculiar dc cscrevcr mimeros negu- 
tivos com um sinal dc menos ii direibt do ntimero em vez de ii csqucrda. onde os cicntistas da computaęao o colo- 
cam. Suponha que. em um esforęo dc impressionar o patrao. o chefe do centro de compuinęiio dc um escritório de 



contabilidade alicrou todoK os mimeros, era todos os computadorcs. para usar o bit da ex trema direita (em vez 
do bit da extrema esquerda) como bit dc sinal. Nao hd dtivida dc que isso causaria urna ótima impressao no 
palrao — porquc todos os softwarcs deixariam dc funcionar corretamcnte. O hardware espera urn certo ferma¬ 
to para intciros c nao funciona adcquadamcntc quando rcccbc quaiqucr outra coisa. 

Agora considcre um outro cscritório de contabilidade. que acabou de firm ar urn centralo para verificar a dfvi- 
da fcdcral (quanto o govcmo dos Hstados Unidos deve a todos os cidadHos). Usar arilmćtica de 32 bits nao fun- 
cionaria nesse caso, porquc os ntimeros cnvolvidos sao maiores do quc 2 n (cerca dc 4 bilhóes). Urna soluęao e 
usar dois intciros dc 32 bits para representar cada ntimero. o quc dd 64 bits no total. Sc a mdquina nao suportar 
csse tipo de ntimero dc dupla precisao. toda a arilmćtica efetuada eom clcs teria dc ser executada em software, 
mas as duas partes podcm cslar em qualquer ordcm, ja que o hardware nao sc importu. Essc ć um cxemplo dc tipo 
dc dados sem suporte de hardware e, por isso, sem urna determinada rcprcsentaęao requcrida cm hardware. Nas 
scęóes seguintes cxaminuremos tipos dc dados suportados pdo hardware c. por conscqiićncia, dados para os quais 
sao exigidos Ibrmatos especfficos. 

5.2.1 Tipos de dados numericos 

Os tipos de dados podcm ser divididos em duas catcgorias: numericos c nao numericos. O principul entre os 
tipos de dados numericos siło os intciros. Eles podem ter muitos comprimcntos. normalmentc 8, 16, 32 e 64 bits. 
intciros contam coisas (por exemplo. o ntimero de chaves de fenda quc urna loja de lerragens tem em estoquc). 
identificam coisas (por cxemplo, ntimeros de contas correntcs) e muito mais. A maioria dos computadorcs moder- 
nos amiazcna inteiros cm notaęao binaria de complemento de dois. embora outros sistemas ja tenham sido usados 
no passado. Ntimeros bindrios serSo discutidos no Apendice A. 

Alguns computadorcs suportam intciros sem sinal, bem como intciros com sinal. No caso de um inteiro sem 
sinal, nao hd bit de sinal e todos os bits contćm dados. Essc tipo de dado tern a vantagcm dc um bit cxtra. portan- 
lo, por excmplo, urna palavra dc 32 bits pode contcr um tinico inteiro sem sinal na faixa de 0 a 2 32 - 1. inciusive. 
Por comparaędo, um inteiro dc 32 bits com sinal, representado por complemento dc dois, só pode manipular ntime- 
ros atć 2 31 - 1, mas, ć claro. tambćm pode manipular ntimeros ncgativos. 

Para ntimeros quc nao podem ser expressos como um inteiro. como 3.5, sdo usados numeros de ponto flu- 
tuante. Esscs numeros serao discutidos no Apendice B. Eles tem comprimcntos dc 32.64 ou. as vczcs. 128 bits. A 
maioria dos computadorcs tem instruęóes para efetuar arilmćtica dc ponto flutuante. Muitos deles tćm registrado- 
res separados para contcr operandos intciros e para conler operandos dc ponto llutuantc. 

Algumas linguagens dc programaęao. cm cspccial COBOL, permitem mimeros decitnais como um tipo dc 
dado. Maquinas quc qucrcm ser amigaveis 1 linguagem COBOL costumam suportar numeros dccimais em hard¬ 
ware, normalmentc codificando um dfgito dccimal cm 4 bits e entfio cmpacotando dois dfgitos dccimais por bytc 
(formum decimui cm código binario). Todavia. a arilmćtica ntlo funciona corretamcnte em numeros decimais 
cmpacotados, portanto sao ncccssarias instruęóes especiais de correęao de arilmćtica dccimal. Essas instruęocs 
prccisum conhecer o sui-um do bit 3. E por essa razao quc o código de condięao muitas vczcs contćm um bit auxi- 
iiar de sai-um. A propósito, o problemu do Y2K (ano 2000). ido comentado. foi causado por programadores 
COBOL que decidiram quc seria mais barato representar o ano com dois dfgitos decimais em vez de reprcscntń- 
lo por um ntimero binario de 16 bits. Grando otimizaęao! 

5.2.2 Tipos de dados nao numericos 

Embora quasc todos os primciras computadorcs ganhassem suas vidas triturando numeros, computadorcs 
modemos sao frcqilcntcmcntc usados para aplicaęóes nao numćricas. cumo c-mail, navegar pela Web. fotografia 
digital e cnaędo c reproduędo de mullimfdia. Para essas aplicaęóes sdo ncccssarias outros tipos de dados. que mui¬ 
tas vezes sdo suportados por instruęóes de m'vel ISA. Nesse caso, ć elara u importdnciu dos caracteres, embora nem 
todos os computadorcs ofercęam suporte dc hardware para clcs. Os ctidigos dc caracteres mais comuns sdo ASCII 
c UNICODE. Eles suportam caracteres dc 7 bits c caracteres dc 16 bits, rcspectivanicntc. Atubos forum discutidos 
no Capflulo 2. 

Nao ć incomum quc u ntvcl ISA tenha instruęóes especiais destinadas a manipular cadcius dc caracteres. isto 
ć. currctras consecutivas de caracteres. Essas cadcias as vezes sdo dclimitadas por um caracterc cspccial na extrc- 
midudc. Como altemutiva, um campo dc comprimcnto dc cadeia pode ser usado paru monitorar essa cxtrcmidadc. 
As instruęóes podcm cxecutar ctipia. busca. ediędo e outrus lunęóes nas cadcias. 

Valorcs boolcanos tambćm sdo importantes. Um valor booleano ptidc assumir um de dois valores: verdadei- 
ro ou falso. Em teoria, um tinico bit pode representar um booleano, com 0 para falso e I para verdadeiro. ou viec- 
versa. Na pratica ć usado um byte ou urna palavra por valor booleano. porquu bits individuais cm um bytc nao tem 
seus cndercęos próprios e. portanto, sao diffceis de acessar. Um sistema comum usa a seguintc convenęao: 0 sig- 
nitica falso e qualqucr outra coisa signitica vcrdadciro. 

A tinica situaęao em quc um valor booleano ć normalmcnte representado por I bit ć quando ha todo um vetor 
de valores, portanto urna palavra dc 32 bits pode contcr 32 valorcs boolcanos. Essa estruturn de dados ć denomi- 
nada mapa dc bits c ocorrc cm muitos contextos. Por excmplo. um mapa dc bits pode ser usado para monitorar 
os blocos livrcs em um disco. Se o disco livcr n blocos. entao o mapa de bits tem n bits. 
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Nosso óltimo tipo de dados e o ponteiro, que e apenas um endereęo dc mdquinu. Ja vimos ponteiros repeti- 
das vezcs. Nas maquinas Mic-.v, SP, PC. LV e CPP sao todos cxemplos de ponteiros. Accssar urna vanavel a uma 
distóncia fixa de um ponteiro, quc e o modo como a instruęao ILOAO trabalha, ć extrcmamente comum em todas 
as maquinas. 

5.2.3 Tipos de dados no Pentium 4 

O Pentium 4 suporta intciros cm compicmento de dois com sinal. inteiros sem sinal. numeros decimais em 
código binario e numeros de ponto Humanie padrao IEEE 754. como mostra a Tabela 5.2. Devido ós suas ort- 
gens como uma humildc maquina dc 8 bils/16 bit.s. ele manipula bem intciros com esse comprimento. com nume- 
msas instruęóes para efetuar operaęóes arilmćticas e operaęóes booleanas. e fazer comparaęóes entre clas. 
Operandos nao tern de estar alinhados na memória. mas o desempenho e mclhor se os endercęos de palavras forem 
multiplos de 4 bytes. 

O Pentium 4 tambem ć bom na manipulaęao de caractercs ASCII dc 8 bits: ha instruęóes cspeciais para copiar 
e huscar cadcias de caractenes. Essas instruęóes ptxiem ser usadas com cadeias cujo comprimento e conhecido com 
antccedCncia. e tambem com cadeias cuja extrcmidadc e marcada. Elas costumum ser usadas em bibliotecas de 
manipulaęao de cadeias. 



Tahela S .2 Tipos de dados numericos do Pentium 4. Os tipos suportados estao marcados com X. 


Tłpo 1 bit 8 bits 16 bits 32 bits 64 bits 128 bits 


Bit 

Inteiro com sinal XXX 

Inteiro sem sinal XXX 

Inteiro decunal em código binario X 

Ponto Ilutuante X X 


5.2.4 Tipos de dados na UltraSPARC III 

A UltraSPARC III suporta uma larga faixa dc formatos de dados. como mostra a Tabela 5.3. Só para intciros. 
ela pode suportar operandos de 8, 16, 32 e 64 bits, com e sem sinal. Inteiros com sinal usam compicmento de dois. 
Operandos dc ponto ilutuante dc 32, 64 e 128 bits sito incluidos e obedccem ao padrao IEEE 754 (para os nómeros 
de 32 bits e 64 bits). Numeros decimais um código binario nao suo suportados. Todos os operandos devcm estar ali- 
nbados na memória. 

A UltraSPARC III ć baseada em registradores e quase todas as instruęóes operam em regislradores de 64 bits. 
Tipos dc dados de caractercs c dc cadeia nao sao suportados por instruęóes espcciuis de hardware — sao manipula- 
dos intciramentc em software. 


Taimiu 5.3 Tipos de dados numericos da UltraSPARC III. Os tipos suportados estao marcados com X. 


| Tipo 

1 1 bit 

8 bits 

| 16 bits 

| 32 bits | 

64 bits 

I 128 bits 1 

Bit 







Inteiro com sinal 


X 

X 

X 

X 


Inteiro sem smal 


X 

X 

X 

X 


Inteiro decimal em código binano 







Ponto Ilutuante 




X 

X 

X 


5.2.5 Tipos de dados do 8051 

0 8051 tein um numeru muito limitado de tipos dc dados. Com uma linica exccęao. todos os registradores tćm 
S bits de largura. ponanio intciros tambem tem 8 bits de largura. Caractercs tambem tern 8 bits de largura. Em essćn- 
cia. o unico tipo de dudo quc e realmente suportado pelo hardware para opcraęócs ariUneticas e o hyte dc 8 bits. 
como mostra a Tabela 5.4. 

O 8051 tambćm tern um oulro tipo de dados suportado por hardware que nao 6 usado para aritmetica: o hit. 
Um bloco de 16 bytes quc comeęa no endereęo 32 i memória buseada em bits. Todo bit pode ser cndereęado indi- 
vidualmente usitndo um deslocamento dc 0 a 127. O bit Odo bit mais ii direita no byte 32. o bil I e o bit seguinte 
a ele e ussim por dianie. Ha instruęóes para ajustar. liberar. efetuar opcraęóes AND e OR e complcmentar bits indi- 
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Tabela 5.4 Tipos de dados nurr.ericos do 8051. Os tipos suportados sao marcados córa x. 


1 TIpo 

L bit 

! S bits 

| 16 bits J 32 bits j 64 bits | 128 bits | 

Bit 

X 



Inteiro com sinal 


X 


Inteiro sem sinal 




Inteiro deamal em código binirio 




Ponto flutuante 





viiluais. raovcr paru bits e teslar bits. No caso de sislcmas cmbutidos. bits individuais sao usados para armazenar o 
cstado de cotnuiadorcs. luzcs etc., portanto a capacidadc dc inanipular osscs bits dirctamcntc e inuito tltil. 


5.3 Formatos de instruęao 

Urna instruęHo consiste cm um opcodc. usualmente cm conjunto com alguma inforniaęao adicional. lais 
como dc onde vćm os opcrandos c para oiidc vilo os resultados. O tópico gcral que trata dc cspcciftcar ondc os 
opcrandos cslao (isto ć, scus endereęos) e dcnominado cmlcreęamento c sera disculido dctalhadamcntc ntais 
adiantc ncsta scęao. 

A Figura 5.6 mostra diversos formatos possfveis para instruęóes dc m'vcl 2. Instruęóes sempre tfim um opco¬ 
dc que indica o quc a instruęao faz. Pode haver zen), um, dois ou trćs cndcrcęos presentes. 

Em algumas maquinas. todas as instruęóes tfim o mesmo eomprimento; cm outras pode haver muitos compri- 
mentos diferentes. Instruęóes podem ser mais curtas, mais longas ou do mesmo eomprimento da palavra. Ter ins¬ 
truęóes do mesmo eomprimento da pttlavra e mais simplcs e facilita a deeoditicaęao. mas muitas vezcs desperdięa 
cspaęo. uma vez que. entao, todas as instruęóes tem de ser tiio longas quanto a mais longa. A Figura 5.7 mostra algu¬ 
mas rclaęóes possiveis entre eomprimento de instruęao c eomprimento de palavra. 


Fioura 5.6 
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instruęao: (a) Instruęao sem 
endereęo. (b| Instruęao de 
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5.3.1 Criterios de projeto para formatos de instruęao 

Quundo uma equipc Jc projeto dc computador tem dc cscolher formatos de instruęóes para sua maquina, dcvc 
considcrur varios fatores. A diliculdudc dessu dccisao ndo deve ser suhestimada. A dccisao sobre fermato de instru¬ 
ęao deve ser tornada no inicio do projeto de um novo computador. Se cle lor um suecsso comercial. o conjunto dc 
instruęóes pode sobrcviver por 20 anos ou mais. A capacidadc de abrcscentar novas instruęóes e de czplorar outras 
oportunidades que surgern durantc um longo periodu de tempo e de grjndc importancia. mas somente se a arąuite- 
lura — c u empresa que a cstivcr construindo — sobrcvivcr tempo sulicientc para quc a arquitetura seja um sucesso. 

A eliciencia de determinadu ISA depende muito da tccnologia com a qual o computador dcvc ser implcmenta- 
do. Essa tccnologia passani por grandes altcraęócs dunintc um longo penodo e algumas das cscolhas da ISA serao 
considcradas infelizes (olhando cm rctrtłspccto, ć cłami. Por cxcmplo, sc os acessos a mcmoria siio rtipidos. um pro- 
jcto bascado cm pilha — cotno IJVM — ć bom. mas. sc forem lentos, o negócio e ter muitos registradores — como 
a UltraSPARC Ul. Os leitorcs quc acharcm que essa cscolha ć facil estao convidados a pegar uma folhn de papel c 
anotar suas prcvisóes para 11) uma veloeidade dc rclógio dc CPU npica e (2) um tempo de acesso tfpico a RAM 
para computadores daqui a 20 anos. Dobre bem esse papel c guarde-o por 20 anos. Entao desdobrc-o c leia. Os que 
carcccm de humildade podem esquecer a folha de papel e publicar suas prcvisóes na Internet agora 

E claro que ale os projetistas que tem a melhor visao do futuro talvez nao consigam fazer as cscolhas certas. 
E. mesmo que pudessem. teriam de lidar com o curto prazo tantbćm. Sc essa elegante ISA for um pouco tnais cara 
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que a ISA feia fabricada agora pelos concorrentes. a cmprcsa lalvcz nao sobreviva o suficiente para que o mumio 
aprecie sua elegancie. 

Sc todas as outras coisas torem iguais. instruęóes curtas sao melhores do quc as longas. Uin programu que con- 
siste cm n instruęóes dc 16 bits ocupa sonie mc metade do espaęo dc mcmóna ocupudo por n instruęóes de 32 bits. 
Com o decb'nio dos preęos da memória. esse falor podera ser menos importante no futuro, se nao fosse pelo tato de 
quc a metastase do software ć ainda mais rapida do quc a qucda dos preęos dc memória. 

Alćm do mais. mininiizar o tamanho das instruęóes pode toma-ias mais diffceis dc coditicar ou mais diffceis 
dc sobrepor. Portanto, ć preciso contrabaianęar o tamanho minimo da insLruęóo com o tempo requerido para dcco- 
ditica-la e executd-ia. 

Urna outra razao para minimizar o comprimento da instruęiio ja e importante c estti fteando ainda mais impor- 
tantc com processadorcs mais rdpidos: a largura dc banda da memória (o numero de bits/s que a memória pode for- 
necer). O crescimcnto impressionante das ve!ocidndcs dc processadorcs nu ultima dćcada nao foi cquiparado por 
crcscimcntos iguais na largura de banda de memória. lima das restrięóes cada vcz mais comum imposta aos pro- 
ccssadores surge da incapncidadc do sistema dc memória dc fomcccr instruęóes c operandos com a vclocidadc com 
que o processador pode consumi-los. Cada memória tern urna largura dc banda quc ć determinada por sua lecnolo- 
gia c por scu projelo de engenhuria. O gargalo da largura de bandu se upiica nao somente a memória principal, mas 
tambćm a todas as cachcs. 

Se a largura dc banda de urna cuchę de instruęiio for t bps e o comprimento medio da instruęao for r bits, a 
cache pode entregar no miiximo i/r instruęóes por segundo. Notę que esse e um limite superior para a taxa a qual o 
processador pode cxccutur instruęóes. embom atualmente haja csforęos dc pcsquisa dcdicados a romper atć mesmo 
cssa barreira aparentemente imposstvel. Ć claro quc a taxa i qual as instruęóes podem ser executadas — isto ć, a 
velocidadc do processador — pode ser limilada pelo comprimento da instruęao. Instruęóes mais curtas signiticam 
um processador mais r.ipido. Urna vez que processadorcs modemos siio capazes de exccutar varias instruęóes a cada 
ciclo dc relógio. buscar vdrias instruęóes por ciclo dc relógio e impcrativo. Esse aspecto da cache de instruęao faz 
do tamanho das instruęóes um importante criteno de projeto que tern importantes implicaęóes para o desempenho. 

Um segundo criteno de projeto e espaęo suficiente no formato da instruęao para exprcssar todas as opcraęóes 
desejadas. Uma maquina com 2" opcraęóes que tenha todas as instruęóes menores do quc n bits ć imposstvcl. 
Simplesmente nao haveria cspaęo sulicientc no opcodc para indicar quul instruęiio ć a neccssaria. E a historia ja 
moslrou mais de uma vez a insensatez de nao deixar um numero substancial dc opcodcs livres para futuras adięóes 
ao conjunto de instruęóes. 

Um terceiro critćrio se refere ao numero de bits em um campo de endereęo. Considcre o projeto de uma maqui- 
na com um caractere de 8 bits e uma memória principal que dcve conter 2 32 caractcres. Os projetistas poderiam pre- 
ferir atribuir cndcrcęos consecutivos a unidades de 8. 16, 24 ou 32 bits. bem como outras possibiiidades. 

Imaginc o que acontcceria se a equipe dc projeto se dividisse em duas facęócs antagomstas. uma defendendo 
o byte dc 8 bits como unidadc basica de memória e a outra defendendo a palavra dc 32 bits. O primeiro grupo pro- 

poria uma memória de 2 M bytes, numerados 0, I, 2. 3.4.294.967.295. O ultimo grupo proporia uma memória 

dc 2 10 palavras numeradas 0. 1.2, 3.1.073.741.823. 

O primeiro grupo diria que. para comparar dois caractcres na organizaęao de palavra dc 32 bits. o programu 
nao somente teriu de buscar as palavras que contćm os caractcres, mas tambem teria de extrair cada caractere dc sua 
palavra para poder compara-los. Essa operaęao custa instruęóes extras e. portanto, desperdięa espaęo. A organiza- 
ęao de 8 bits, por outro lado, da um endereęo para cada caractere. o quc toma a comparaęao muito mais faci 1. 

Os defensores da palavra dc 32 bits revidariam. destacando que sua proposta requer apenas 2 ł0 endercęos 
separados, o que rcsulta em um comprimento de endereęo dc somente 30 bits. ao passo que u proposta de bytes de 
8 bits requer 32 bits para cndereęar a mesma memória. Um endereęo mais curto significa uma instruęao mais curta 
quc. alćm de ocupar menos espaęo. tambem cxigc menos tempo dc busca. Como altemativa, eles poderiam manier 
o endereęo dc 32 bits para rcfcrcnciar uma memória dc 16 GB em vcz de uma memória insignilicante de 4 GB 

Esse esemplo ilcmonstra que. para obicr melhor rcsoluęiio de memória. ć prcciso pagar o preęo de endereęos 
mais longos e. por eonsoqilćneia. instruęóes mais longas. A ultima pnlavra em rcsoluęiio e uma organizaęao de memó¬ 
ria na qual todos os bits siio dirctainente endereęaveis (por esemplo. o Burroughs B1700). No outro extremo estii uma 
memória que consistc em palavras muito longas (por exemplo. a serie CDC Cyber linha palavras de 60 bits). 

Modcmos sislcmas de computuęao chcgaram a uma soluęiio de compromisso quc. dc certo modo. licou com 
o piór das duas. Eles rcquerem todos os bits nccessurios para cndereęar bytes individuais. mas os acessos a niemó- 
ria leem uma. duas ou ils vezes quatro palavras por vcz. Lcr I byte da memória na UltraSPARC Ul. por exemplo. 
traz um minimo de 16 bytes (veja a Figura 3.44) e provavelmentc toda uma linha dc cache de 64 bytes. 



5.3J2 Expansao de opcodes 

Na seęao anterior vimos como ha um compromisso entrc endercęos curtos e boa rcsoluęiio de memória. Nesta 
seęao examinarcmos novas permutas que envolvem opcodes e endercęos. Considcre uma instruęao de (n + k) bits 
com um opasie de k bits e um unico endereęo de n bits. Essa instruęao permite 2* opcraęóes diferentes e 2" cćlu- 
las de memória endereęiiveis. Como altemaiivu. os mestnos n + k bits poderiam ser desmembrados cm um opcodc 
dc (A — I) bits e um endereęo dc (n + 1) bits. o quc signilica apenas a metade do numero dc instruęóes. mas duas 
vezes mais mcmóna endercęavcl. ou a mesma quantidade dc memória. mas com duas vezcs a rcsoluęiio. Um opcodc 
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de (k + I) bits e um endereęo de (n - I) bits da mais operaęócs. mas o preęo i urn numero tnenor de cćlulas ende- 
reęaveis ou urna rcsoluęao piór e a mcsma quantidadc dc memória cndcrcęiWel. G possivcl fazer pcrmutas bas tan¬ 
ie sofisticadas entre bits de opcode c bits dc endereęo. bem como as mais simplcs que ocabamos de descrcvcr. O 
csqucma discutido nos panigrafos seguintes e denominado espaasao dc opcode. 

O conceito dc opcode espandido pode ser visto com mais clarcza com um cxemplo simplcs. Considcrc urna 
nitiquina na quul as instruęóes tćm 16 bits de comprimento c os endereęos tćm 4 bits de comprimento. como mos- 
tra a Figura 5.3. Gssa situayao poderia ser razouvcl para urna muquina quc tern 16 regislradores (por conseguinlc, 
um endereęo dc registrador dc 4 bits), na qual ocorrem todas as operaęócs aritmeticas. Um projeto poderia ser um 
opcode dc 4 bits c tres endercęos cm cuda instruęao. o quc da 16 instruęóes dc tres endercęos. 

Contudo. a; os projetistas prccisarem dc 15 instruęóes dc trfis endercęos. 14 instruęóes dc dois endercęos. 31 
instruęóes dc um endereęo e 16 instruęóes sem absolutamentc nenhum endereęo, podem usar opcodes de 0 a 14 
como instruęóes dc tres endercęos. mas interprelar o opcode 15 de modo diferente (vcja a Figura 5.9). 

Opcode 15 signiGca quc o opcode esui contido nos bits de 8 a 15 em vez de 12 a 15. Os bits de 0 a 3 e 4 a 
7 formom dois endercęos. como sempre. As 14 instruęóes de dois endercęos tćm todas 1111 nos 4 bits da cxtre- 
ma esqucrda. e mimeros de OtMM) a 1101 nos bits de 8 a 11. Instruęóes que tćm 1111 nos 4 bits da extrcma esquer- 
da e 1110 ou 1111 nos bits de 8 a 11 terao tratamento cspccial, isto ć. scrao iratadas como sc seus opcodes esti- 
■.essem nos bits de 4 a 15. O rcsultado e 32 novos opcodes. Como sao neccssarios apenas 31, o opcode 
111111111111 ć interpretado para significar que o opcode rcal esui nos bits 0 a 15. o quc dti 16 instruęóes sem 
nenhum endereęo. 

Ao longo dessa nossa discussilo, o opcode ficou coda vez mtiis longo: as instruęóes dc trćs endercęos tćm um 
opcode dc 4 bits. as instruęóes dc dois endercęos tćm um opcode 8 bits, as instruęóes de um endereęo tćm um opcode 
dc 12 bits opcode c as instruęóes sem endereęo tern um opcode dc 16 bits. 


Figura 5.9 
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A idćiu de expandir opcodes demonstra um compromisso entre o espaęo para opcodes e o espaęo para outras 
informaęócs. Na pratica. opcodes cxpandidos nao sao tao limpos e rcgularcs como era nosso exeraplo. Na verdade, 
ha dois modos individuais de explorar a capacidadc dc usar tamanhos vuriavcis de opcodes. Em primeiro lugar. todas 
us instruęóes podem ser mantidas com o mesmo eompriniento, atribuindo os opcodes mais eurtos as instruęóes quc 
prceisam de mais biis para espccificar outras coisas. Em segundo lugar. o tamanho da instruę3o media pode ser mini- 
mizado com a escolha dos opcodes mais eurtos para instruęóes comuns e dos mais longos para instruęóes raras. 

Levando a idćia dc opcodes dc eomprimento variavcl ao extrcmo. e possfvcl minimi/ar o comprimento da ins¬ 
iruęao media codillcando toda instruęao para minimi/ar o numero dc bits necessdrio. lnfclizmente, isso resultaria 
em instruęóes de varios tamanhos que nao teriam alinhamento regular cm Fronieirus de bytes. Einbora ja tenhain 
existido ISAs que possufam essa propriedade — por exemplo. a malfadada Intel 432 —, a importaneia do alinha- 
tnento ć Ido grandę para a rapt da dceodificaęao de instruęóes que esse grau de otimizaęao e qua.se ccrtamcnte con- 
traproducentc. Nao obstanie, e freqiientemente empregada no nfvcl do bytc. 

5.3.3 Formatos de instruęóes do Pentium 4 

Os formutos dc instruęóes do Pentium 4 sao de altu complcxidadc c irreguiaridade, com ate seis campos dc 
eomprimento variavcl, dneo dos quais opcionais. O padrao geral e mostrado na Figura 5.10. Esse estado de coisas 
ocorreu porque a arquitctura evoiuiu por muitas geraęóes e adotou algumas opęóes desastrosas no infcio. Em nomc 
da eompatibilidade n3o foi posstvcl rcverter essas primeiras decisóes niais tardc. Em geral, para instruęóes de dois 
operandos, se um operando estiver na memória. o outro nao pode es lar. Por isso existem instruęóes para somar dois 
registradorcs. somar um regtstrador com memória e somar memória eom um registrador, mas nao para somar urna 
palavra de memória eom urna outra palavra dc memória. 

Nas primeiras arquileluras Intel, todos os opcodes tinham l by te. embora o conceito dc um byte dc prcfixo 
fosse usado exiensivamenle para modificar algumas instruęóes. Um byte de prefixo e um opcode extra introduzi- 
do na frcntc de uma instruęao para alterar sua aęao. A instruędo WIDE em IJVM e um excmplo de bytc de prefixo. 
lnfclizmente. em algum ponto da evoluęao. a Intel esgotou seus opcodes. portanto um opcode, 0xFF, toi designado 
como códign de escapc para permitir um segundo bytc de insiruęao. 

Os bits individuuis nos opcodes do Pentium 4 nao dao muita informaęao sobre a insiruęao. A unica estrutura 
no eampo de opcode e a uli li/.aęao do bit de ordem baixa em algumas instruęóes para indicar bytc/palavra. e a uti- 
lizaęao do bit adjucentc para indicar se o endercęo dc memória (se estiver presente) e fonte ou destino. Portanto. 
em geral, o opcode devc ser completamente decodificado para determinar que classe de opcraęao deve ser cxecu- 
tada — c. assim, qual e o comprimento da insiruęao. Isso ditieuita implcmentaęóes de alto desempenbo, uma vez 
que e prcciso decodiftcaęao extcnsiva antes mesmo de poder determinar onde a próxima instruęao comeęa. 

Em seguida ao byte de opcode na maioriu das instruęóes que rcfercnciam um operando na memória. vcm um 
segundo byte que infonna tudo sobre o operando. Esses 8 bits sao subdivididos em um eampo MOD dc 2 bits e 
dois campos de registradorcs de 3 bits, REG e R/M. As vezes os tres primeiros bits desse byte sao usados como 
cxtcnsao para o opcode, o quc dii um total de 11 bits para o opcode. Contudo, o eampo dc modo de 2 bits signiii- 
ea que ha soinentc quatro maneiras de endercęar operandos e um dos operandos dcve ser sempre um registrador. 
Pela lógica, qualqucr um dos EAX, EBX, ECX. EOX. ESI. EDI, EBP. ESP dcvcria ser especificavcl como qualqucr 
um dos registradorcs. mas as regras dc codiiieaęao proibem algumas eombinaęóes c os usam somente para easos 
especiais. Alguns modos rcquerem um byte adieional. denominado SIB (Scalę. lndcx. Base — Mscala, Indice. 
Base). Esse esqucma nao e ideał, mas e uma soiuęao de compromisso dadas as dcmandas conflitantes da eompati- 
bilidade e o desejo de agregar novas caructcrfsticas que nao forom previstas no infcio. 

Alćm de tudo isso, algumas instruęóes tem 1. 2 ou 4 bytes a mais que especitlcam um endercęo dc memória 
(dcslocamcnto) e posswclincme mais outros I. 2 ou 4 bytes quc eontćm uma eonstantc (operando imediato). 
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5.3.4 Formatos de instruęóes da UltraSPARC III 

A ISA UltraSPARC III consistc inteiramente em instruęóes de 32 bits, alinhadas na memória. As instruęóes 
em geral sao simples e cspeciikam somente uma tinica aęao. Uma instruęao anunelica tipica espccifica dois regis¬ 
tradorcs para fomecer os operandos-fontes e um utueo registrador de destino. Uma variante permitc quc a instruęao 
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fomcęa uma constantc de 13 bits com sinal cm vez dc urn dos rcgistradores. Para urna instruęao LOAD, dois rcgis- 
tradores. ou um registrador e uina constante de 13 bits. sao somados para espccificar o endcrcęo de memória a ser 
lido. Os dados sao escritos no outro registrador espccificado. 

A SPARC original linha um ntimcro muito limitado de formatos dc instruęóes, ilustrados na Figura 5.11. Com 
o tempo forom acrcscentados novos formatos. Na epoca da redaęao deste Iivro, a contagem eslava em 31, e aumen- 
tava a cuda dia. (Sera que falta muito para vermos alguma cmpresa anunciar ‘A mais complcxa maquinu RISC do 
mundo'?) Grandę parte das novas variantes foi obtida cortando alguns bits de aigum campo. Por esemplo. os dcs- 
vios originais usavam tbrmato 3, com um deslocamcnto de 22 bits. Qttando foram acrcscentados desvios previstos. 
forum rcmovidos trcs dos 22 bits — 1 bit foi osado para a prcvisao (tomada/nao tornada) e 2 para espccificar qual 
conjunto dc bits dc código dc condięao deveria ser usado. 

Isso dcixou um dcslocamento de 19 bits. Como outro excmplo, hti muitas instruęóes para lazcr a convcrsao 
entre tipos de dados (intcims para ponto Humanie etc.). Muitas dessas instruęóes usam uma variantc do formato lb. 
com o campo IMMEDIATE subdividido em um campo de 5 bits que dd o registrador-fontc c um campo de 8 bits que 
dd mais bits dc opcndc. Contudo. a maioria das instruęóes ainda usa os formatos mostrados na figura. 

Os dois primciros bits dc toda instniędo ajudam a determinar o formato da instruęao c informam ao hardware 
ondc encontrur o rcsto do opcode, sc houvcr mais. Em formato la, ambas as fontes sao rcgistradores; em formato 
lb. uma fonie ć um registrador e uma <5 uma constantc na faixa -4096 a +4095. O bit 13 sdcciona entre eles. (O 
bit da extrcma dircita e o bit 0.) Em ambos os casos, o destino e semprc um registrador. E fomecido espaęo sufi- 
cicntc paru atć 64 instruęóes. algumas das quais estdo rcservudas para uso futuro. 

Dispondo somente de instruęóes dc 32 bits nao c possfvel incluir urna constantc de 32 bits na instruęao. A ins¬ 
truęao SETHI ajusta 22 bits. dcixando espaęo paru uma outra instruęao ajustar os doz restantes. ił a timca instruęao 
que usa esse formato. 

Os dcsvios condicionais ndo previsfveis usam formato 3. sendo quc o campo COND informa qual condięao tes- 
lar. O bit A trata de cvitar tempos de rctardo sob ccrtas condięóes. Os desvios prcvisivcis usam o mesmo formuło, 
mas com um dcslocamento dc 19 bits. como jd mcncionamos. 

O ultimo formato i para a instruęao CALL, usada para fazer uma chamuda dc proccdimcnto. Essa instruędo i 
espccial porquc ć a unica na qual os 30 bits dc dados sdo ncccssarios para espccificar um endcrcęo. Para essa ISA 
ha um unico opcode de 2 bits. O endcrcęo ć o cndercęo-ulvo dividido por quatro, o que tomu a faixa alcanędvel 
aproximadamcntc ± 2 31 bytes em rclaęao a instruęao correntc. 

5.3.5 Formatos de instruęóes do 8051 

O 8051 tern seis formatos simples de instruęao, como ilustrudo na Figura 5.12. As instruęóes sao dc 1.2 ou 3 bytes. 
O Ibrmato I consiste em apenas um opcode. Ele e usado. por excmpio. pela instruęao que inercmenta o acumulador. 


Formato 



’[ 

•[ 

Oocode 

Opcode 

ZJ 

1 

Formatos de 


Opcode 

| Operando 

instruęao do 




8051. 

■ * L 

Opcode 

Endereęooe ii bits 


■L 

Opcode 

Endereęo de 16 bits 


«L 

Opcode 

Operando t | Operando 2 
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O formato 2 lambćm lem um byle e consistc em um opcodc tle 5 bits e um niimcro ile registrador dc 3 
bits. Entre as instruęócs quc usam cssc formatu cstao muitas quc fazcm alguma coisa que cnvolvc o acumula- 
dor e um rcgistrador, lal como somar um registrador ao acumulador ou mover dados entre um registrador e o 
acumulador. 

0 formato 3 tern um operando de 1 byte. O opcrando pode ser urna constante imediata, por cxemplo, a ser eur- 
regada no acumulador; um deslocamento. por excmplo, a distancia a saltar: ou um ndrnero de bil. por excmplo, para 
ajustar. liberar ou icstar o bit n. 

Os formaios 4 e 5 sao usados para saitos e chamadas de sub-rotinas. A versao de endereęo dc 11 bits pode ser 
usada quando nao ha mcmória cxtcma, de modo que lodos os endereęos de programu dcvcm cstar abaixo de 4016 
(8051) ou 8192 (8052). Quundo sao usados mais do quc 8 KB de mcmória cxtcma. a forma de 16 bits e neccssaria. 

0 formato 6 contćm dois opcrandos dc 8 bits. Ha vdrias instruęócs quc usam cssc formato, por cxemplo, movcr 
urna constante imediata de 8 bits para um endereęo dc mcmória no chip. 

5.4 Endereęamento 

Grandę parte das instruęócs tern operandos, portanto ć neccssario algum modo dc espccificar onde eles cstao. 
Esse assunto. que discutiremos agora, e denominado endereęamento. 

5.4.1 Modos de endereęamento 

Ató aqui. demos pouca atcnęao ao modo como os bits dc um campo dc cndercęo sao interpretados para achar 
o operando. Agora chegou a hora de investigar esse assunto, denominado modos de endereęamento. 

5.4.2 Endereęamento imediato 

0 modo mais simples dc urna instruęao espccificar um operando e a parte da instruęao rcfcrcntc ao endereęo 
rcalmentc conter o operando em si em vcz de um endereęo ou outra inlórmaęao que descrcva onde o operando estd. 
Tal operando ć denominado operando imediato porquc cle ć automaticamente buscado na mcmória. ao mesmo 
tempo quc a própria instruęao; por conseguintc, cle esta imediatamente disponivel para uso. Urna possivcl instru- 
ęao imediata para carrcgar o registrador R1 coni a constante 4 e mostrada na Figura 5.13. 

O endereęamento imediato tern a virtude de nao exigir urna referencja extra i mcmória para buscar o operan¬ 
do. A dcsvantagem e que somente urna constante pode ser fornecida desse modo. Alćm disso, o numeru de valorcs 
e limitudo pclo tamanho do cumpo. Ainda assim. muitas arquitcturus usam essa tćcnica para espccificar constantes 
inleiras pequenas. 





Figura 5.13 

Instruęao imediata para caiTegar 4 no registrador 1 


MOV 


m 4 


5.4.3 Endereęamento direto 

Um metodo para espccificar um operando na mcmória e dar scu endereęo complcto. Esse modo ć denomina¬ 
do endereęamento direto. Assim como o endereęamento imediato. o endereęamento direto tern uso restrito: a ins- 
truęao sempre acessara cxatamcntc a mesma localizaęio de mcmória. Portanto. embora o va!or possa mudar. a loca- 
lizaęao nao pode. Assim, o endereęamento direto só pode ser usado para accssar variavcis glohais cujos endereęos 
sao cnnhccidos no momentu du compilaęao. Nao obstanie, rnuitos programas tćm variaveis globais. portanto, esse 
minio e amplamentc usado. Os dcialhcs dc como o computador sabc quats endereęos sao imediatos e quais sao dire- 
tos serao discutidos mais odiuntc. 


5.4.4 Endereęamento de registrador 

Endereęamento dc registrador e conccitualmentc o mesmo que endereęamento direto. mas cspeeifica um regis¬ 
trador em vcz dc urna localizaęio de mcmória. Como os registradores sio tao importames (dcvido ao acesso rapi- 
do e endereęos curtos). esse modo de endereęamento e o mais comum na maioria dos compuiadores. Muitos com- 
piladorcs fazcm todo o possivel para determmar quais variaveis serao accssadas com maior l‘rcqdencia — por 
cxcmpio. o tndicc de um laęo — e colocam essas variaveis em registradores. 

Esse modo dc endereęamento e conhecido simplcsmente como modo registrador Em arquitcturjs carrc- 
gue/amiazcne. como a da UltraSPARC III. quasc todas as instruęócs usam exclusivamente esse minio de endereęa¬ 
mento. A unica vez em que esse modo de endereęamento nao e usado e quando um operando e transfendo da memó- 
ria paru um registrador (instruęao LOAD) ou de um registrador para a mcmória (instruęao STORĘ). Mesmo quundo 
se trata dessas instruęóes, um dos operandos ć um registrador — de onde a palavra de memórin deve vir ou para 
onde deve ir. 




5.4.5 Endereęamento indireto de registrador 

Nessc modo,o operando que esta sendo cspccificado vcm da memória ou vai para a memória, mas scu ende- 
rcęo nao esti ligudo a instruęao. como no endereęamento direto. Hm vez disso. o endereęo esta contido cm um regis¬ 
trador. Quando um endereęo e usado dessa mancira. cle e denominado pontciro. Urna grandę antagem do enderc- 
ęamcnlo indireto de registrador <5 que ele pode rcfcrenciar memória sem pagar o preęo de ter unt endereęo de 
memória completo na instruęao. Alćm disso, tambćm pode usar diferentes palavras de memória em difcrcntes exe- 
cuęóes da instruęao. 

Para ver por quc poderia ser lilii usar urna palavra diferente em eada cxecuę3o, imagine um laęo que percorre 
os elementos dc um vctor unidimensional dc inlciros de 1.024 eletnentos para calculur a soma dos elementos nu 
registrador R1. Fora do laęo. algum outro registrador. por esemplo. R2, pode ser ajuslado para aponlar para o pri- 
mciro elcmento do vctor c um outro registrador. por exemplo, R3. pode ser ajustado para aponlar para o primciro 
endereęo que se cncontra logo após o vctor. Com 1.024 inteiros dc 4 bytes cada. se o arranjo comcęar cm A. o pri- 
mciro endereęo logo após o arranjo sera A + 40%. Um código em linguagem de montagem lipico para efetuar esse 
calculo e mostrado na Figura 5.14 para urna mikjuina de dois endercęos nas suas instruęócs. 

Nesse pequeno programa. usamos varios modos de endereęamento. As trcs primciras instruęócs usam modo 
registrador para o primciro operando (o destino) e modo imediuto para o segundo operando (unia constante indicada 
pelo sinal #). A segunda instruęao eoloca o endereęo de A em R2. nio o contcudo. E isso quc o sinal # informa ao 
assembler. De modo semelhante, u tcrceira instruęio eoloca cm R3 o endereęo da primeira palavra logo após o vetor. 

6 interessante notar nessc caso que o corpo do laęo iuio conlćm nenbum endereęo de memória. Ele usa o modo 
registrador e o modo indireto de registrador na quarta instruęao. Usa modo registrador e modo imediuto na quinta 
instruęao e modo registrador duas vez.es na sexta instruęao. O BLT poderia usar um endereęo dc memória. mas o 
mais provivci ć que especilique o endereęo para o qual desviar com um deslocamcnto de 8 bits em relaęao i pró- 
pria instruęao BLT. Evitando completamente a utilizaęóo de endercęos dc memória, produzimos um laęo curto e 
rapido. A propósito, na rcalidade, esse programa ć para o Pentium 4 — apenas renomeamos as instruęócs e regis- 
tradores e altcramos a notaęuo para facililar a letiuru. porquc a sintaxe da linguagem padriio de montagem do 
Pentium 4 (MASM) ć quase bizarra, um rcsquicio da vida anterior da maquina como um 8088. 

Vale a pena ob$crvar quc. em teoria, ha um outro modo dc fazer esse calculo sem usar endereęamento indire¬ 
to de registrador. O laęo poderia conter urna instruęao para somar A com R1, tal como 

ADDR1.A 


Entao, a cada itcraęao do laęo. a própria instruęao poderia ser inerementada por um fator de 4. dc modo que. após 
urna itcraęao, ela leria 


ADD R1.A+4 

e assim por diante, atć eoncluir. 

Um programa que se modifica a si mesmo e denominado programa automodificadur. Qu'em tcve essa idćia 
foi ningućm menos do que John von Neumana: ela fazia sentido nos primeiros computadorcs. quc nao linham endc- 
rcęamento indireto de registrador. Hoje em dia, programas automodificadores sao considerados de inau gosto c diff- 
ceis de entender. Esscs programas tambćm nao podem ser compartilhados por varios proeessos ao mesmo tempo. 
Alom do mais. eles sequer funeionam eorretamente em maquinas que tern urna cache dividida de nivel 1 se a cache 
de instruęao nao tivcr circuilos para fazer escritas rctroativas (porque os projetistas assumiram que os programas 
nao se modificam a si mesmos). 


Figura 3.14 

Programa em linguagem 
de montagem genenco 
para calcular a soma 
dos elementos de um 
vetor. _ 


MOVRi,«o 
MOV R2.HA 
MOV R3.HA+4096 
LOOP- ADD R1.(R2) 

ADD R2.«4 
CMR R2.R3 
BLT LOOP 


; acumule a soma am R1. inidalmente 0 
R2 = andersęo do arranio AR 
R3 = endereęo da pnmeira palavra logo apos A 
mdlreto de registrador via R2 para obter operando 
neremente R2 de urna palavra (4 bylos) 
ia terminamos? 

se R2 < R3. nao terminamos. portanto contlnue 


5.4.6 Endereęamento indexado 

Muitas vezes e tiul poder rcfcrenciar paJavras de memória eujo deslocamcnto cm relaęao a um registrador e 
conhecido. Vtmos alguns excmplos em IJVM. na qual variaveis locais sao refercnciadas dando seu deslocamcnto 
cm relaęao a LV Endereęamento indexado e o notne quc se di ao endereęamento dc memória que fomccc um 
regisuador (expltcito ou implfcito) mais um deslocamcnto constante. 

O acesso a variavel IikuI cm 1JVM usa um pontciro para a memória (LV) em um registrador mais um peque- 
no dcslocamento na própria instruęio. como mostra a Figura 4.l6(a). Contudo. tambćm ć possivcl lazcr isso do 
outro modo: o pontciro de memória na instruęao e o pequeno dcslocamento no registrador. Para vcr como isso fun- 
ciono. considcre o scguinlc calculo. Temos dois vctorcs unidimensionais de 1.024 palavrtus cada. A o B, e deseja- 
mos calcular A, AND fl, para todos os pares e entao efetuar um operaęao OR com esses 1.024 produtos boolcanos 
para ver se ha ao menos um par nan-zero no conjunto. Urna ubordagem seria coloear o endereęo dc A em um regis- 
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Figura 5.15 MOV RU*0 

Programa era linguagem MOV R2,#A 

de montagem genenco MOV R3 jAf4096 

para calcular a operaęao LOOP: ADD Ri,(R2) 

OR de Ą AND B, para ADD R2.#4 

dois vetores de 1.024 CMP R2.R3 

elementos. BLT LOOP 


acumule a soma em R1, Imaalmenłe 0 

R2 = ancie reco do arranjo AR 

R3 * endereęo da onmetra palavra logo apOs A 

Indireto de registrador vla R2 para obtar operando 

Incremenle R2 da urna palavra (4 byies) 

ja lormlnamos? 

se R2 < R3. nAo lerminamos. portanlo continue 



trador. o endereęo dc B em um segundo registrador. e entao percorrS-los juntos no mesmo passo, andlogo ao quc 
Gzcmos na Figura 5.14. Esse modo de faze-lo com ccrteza funcionaria. mas ha urna outra maneira melhor c mais 
geral. ilustrada na Figura 5.15. 

A opcruęao desse programa 6 direta. Aqui. prccisamos de quatro registradores: 

1. R1 - Contem a OR acumulada dos termos do produto booleano. 

2 . R2 - O fndice. i, que e usado para pereorrer os arranjos. 

3. R3 A eonstante 4096. que e o valor mais baixo de i a nao usar. 

4. R4 - Um registrador iransitório para conter cada produto a medida que e formado. 


Após inicializar os registradores, entramos no laęo de seis instruęóes. A instruęao em LOOP traz A, para R4. 
Aqui, o calculo da fonte usa modo indexado. Um registrador. R2. e urna eonstante. o endereęo dc A. sao somados e 
usados para reterenciar memória. A soma dessas duas quantidades vai para a memória. mas nao e armazenada em 
nenhum registrador vis/vel ao usuario. A notaęao 

MOV R4,A(R2) 

significa que o destino usa modo registrador com R4. ao passo que o registrador e a fonte usam modo indexado, 
sendo A o desloeamcnto e R2 o registrador. Se A tiver o valor. por exemplo, 124300, u instruęao dc miiquina para 
isso provavelmente e parccida com a mostrada na Figura 5.16. 

A primeira vez que o laęo 6 pereorrido, R2 ć 0 (porque foi inicializado assim), portanto a palavra de memória endc- 
reęada 6 A 0 no endereęo 124300. Essa palavra ć earregada em R4. Na próxitna vez quc o laęo e pereorrido, R2 ć 4, 
portanto a palavra de memória endercęada e A, em 124304 c assim por diante. 

Como tinhamos prometido. nesse easo o desloeamcnto na instruęao em si ć o pontciro de memória e o valor 
no registrador e um inteiro pequcno, que e inerementado durante o calculo. Essa formu requer um campo de dcslo- 
camento na instruęao grandę o suGciente para eonter um endereęo. ć ciuro, portanto e menos elicicnte do quc faze- 
lo da outra maneira: entretanto, ainda assim. inuitas vezes essa e a melhor soluęao. 

Figura 5.16 

Possivel represcntaęao de MOV R4 R2 [ 124300 

M0V R4.A1R2)._ 


5.4.7 Endereęamento de base indexado 

Algumus maąuinas (em um modo de endereęamento no qual o endereęo de memória e ealeulado somando dois 
registradores mais um desloeamcnto (opeional). psse modo ,'ls vczes e denoininado endereęamento de base inde- 
xudo. Um dos registradores e a base e o ouim e o indice. Esse modo teria sido titil aqui. Fora do laęo poderiamos 
ter poslo o endereęo de A em R5 e o endereęo de B em R6. Entao, poderiamos ter substitufdo a insmięao em LOOP 
e sua sucessora por 

LOOP: MOV R4,(R2*fl5) 

AND R4,(R2+R6) 

O ideał seria que houvesse um modo de endereęamento para endereęar indiretamente a soma de dois regis- 
tradores sein nenhum desloeamcnto. Como allcmativa. ate mesmo urna instruęao eoni um desloeamcnto dc 8 bits 
teria sido urna melhoriu em relaę^o ao ecidigo original. urna vcz que poderiamos ajustar ambos os deslocamentos 
para 0. Entretanto. sc os deslocamentos forem semprc de 32 bits. nada ganhariamos por usar esse modo. Na prd- 
tiea. contudo. maguinas quc tern esse modo costumam ter urna forma com um deslocamenio de 8 bits ou 16 bits. 

5.4.8 Endereęamento de pilha 

iti obscrvamos ser muito desejavel que as instruęóes dc m>iquina sejam as mais curtas possiveis. O limite linal 
na rcduęao de coraprimentos de endereęos e ndo ter endereęos. Como vimos no Capitulo 4, instruęóes de zero 
endereęo. como IADD. sao posstvcis em conjunęiio com urna pilha. Nestu scęao examinarcmos mais de perto o 
endereęamento de pilha. 








Notacao polonesa invertida 

fi uma antiga tradiędo ila matematica colocar o opcrador cnlre os opcrandos. como em x f y, cm vc/. dc após 
os opcrandos. como em x y +. A forma com o opcrador entre os operandos ć dcnominada infixa. A forma com o 
opcrador após os opcrandos ć dcnominada pós-fixa ou notacao polonesa invertidu, que devc scu nomc ao lógico J. 
Lukasiewicz (IÓ58), pesquisador das propriedades dessa notaęao. 

A notacao polonesa invcrtida tem varias vantagens sobrc a notaęao infixa para exprcssar fórmulas algćbricas. 
Em primeiro lugar. qualquer formuła pode ser exprcssa sem parćnteses. Em segundo lugar, e convcnicntc para ava- 
liar fórmulas cm computadorcs com pilhas. Em lerccim lugar. operadores mli.sos tem prcccdencia. o que ć arbitnirio 
e indescjavcl. Por excmplo. sabemos que a X b + c signilica (u X b) + c, e n3o u X (b + c) porque foi detinido 
arbitrariamenic quc a mulliplicaęao tem prcccdencia sobrc a adięao. Mas um dcslocamcnto para a csqucrda tem pre- 
eedencia sobrc AND boolcana? Quem sabe? A notaęao polonesa invcrtida climina csse inconvcnicme. 

Existcm divcrsos algoritmos para convcrtcr fórmulas infixas em notaęao polonesa invcrtida. A quc fomccercmos 
logo adiantc ć uma uduplaędo dc uma ideia dc E. W. Dijkstra. Considcrc quc uma fómiula ć composta dos seguintes 
simbolos: vnridveis, operadores diadicos (dois opcrandos) - - * / e parónlcscs ii csqucrda c a dircita. Para marcar as 
cxtrcmidades dc uma lórmulu, vamos inscrir o simbolo 1 após o ultimo simbolo c antes do primeiro simbolo. 

A figura 5.17 mostra uma linha fcmwiiiria dc Nova York ii Califómia. com um ramal no mcio cm dircęao ao 
Texns. Cada simbolo na lórmula 6 representado por um vag3o fcrrovidrio. 0 trem corrc na dircęao oeste (para a 
csqucrda). Quando cada vag3o chcga ao desvio, tem de parar um pouco antes dclc e perguntar se devc ir dirctamen- 
tc para a Califómia ou dcsviur a rota para o Texas. Vagóes quc contfim varidvcis sempre vio diretamente para a 
Califómia c nunca para o Tcxas. Vagócs quc contćm todos os outros simbolos tćm de perguntar qual ć o conteiido 
do vagao mais próximo nu linha que vai para o Tcxas antes dc entrar no dcsvio. 

Os dados da Figura 5.18 mostram o que acontcce. dependendo do contctido do próximo vagdo na linha para o 
Texas c do vugao que estd parado no dcsvio. O primeiro 1 sempre vai para o Texas. Os mimeros se referent ils 
seguintes siluaęóes: 

t. O vagao que estd no desvio vai para o Tcxas. 

2 . O vagao mais recentc na linha para Texas faz o rctomo e vai para a Califómia. 

3. O vagao que estd no desvio e o vagao mais rcccntc na linha do Tcxas sao dcsviados c desaparccem (isto 
e. sao apagados). 

4. Parę. Os simbolos agora cm Califómia rcpresentam a fórmula cm notaędo polonesa invertida quando lida 
da csqucrda para a dircita. 

a. Parc. Ocorrcu um erro. A fórmula original nao foi equilibrada adcquadamcnlc. 

Após a rcalizaęau dc cada aęao ć fcita uma nova comparaęao entre o vagao que estd no desvio no momento 
cm qucstao, quc pode ser o mesmo da comparaęao anterior ou o próximo vagao. c o ultimo vagao na linha do Tcxas. 


Cada vagdo ferrovidno 
representa um simbolo 
na fórmula a ser 
convertida de notaędo 
tnfixa para notaęao 
polonesa tnvertida. 



Figura 5.18 

Tabela de derisao 
usada pelo algontmo de 
conversdo da notaęao 
Infbca para a notaędo 
polonesa uwertida. 
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Avaliaęao de fórmulas em notaęao polonesa invertida 

A notaęao polonesa invcrtida e a ideał para avaJiar fórmulas cm um computador com uma pilha. A fórmula 
consistc cm n simbolos. cada um e um operando ou um operador. O algoritmo para avaliar uma fórmula cm nota- 
ęśio polonesa invertida e simples. Examine a cadeia da notaęao polonesa invcrtida da esquerda para a direita. 
Quando encontrar um operando. passe o para a pilha. Quundo cncontrar um operador. cxecute a instruęao corrcs- 
pondente. 

A Tabela 5.6 mostra a avaliaę3o de 


cm UVM. A fórmula correspondente era notaęao polonesa invertida e 


tnlroduzimos IMUL e IDIV na figura como instruęóes de multiplicaęao e divisao. respectivamente. 0 ntimero no 
topo da pilha e o operando da direita, nao o da esquerda. Esse ponto 6 importante para a divisao (e a subtraęao), 
visto que a ordem dos operandos e significativa (diferente da adięao e da multiplicaęao). Em outras palavras, IDIV 
foi cuidadosamente definida portanto, passar primeiro o numerador. depois o denominador e ent5o efetuar a ope- 
raęao dd o resultado correto. Notę como e facil gerar código para IJVM com a notaęao polonesa invertida: basta 


Tabela s.6 Utilizaęao de uma pilha para avaliar uma 
fórmula em notaęao polonesa invertida. 


O processo continua ate alcanęar a ctapa 4. Notę quc a linba do Tcxas esta 
o dirccionamento dc um vagao para o Texas ć uma opcraęao de passar pa 
linha do Texas retomar c envia-lo para a Califómia e uma opcraęao dc lirar da pilha. 

A ordem das variaveis <5 a mesma na notaęao inllxa e na noutęao polonesa invertida. A ordem dos operadores, 
entretanto. nem sempre e a mesma. Na notaęao polonesa invertida os operadores aparecem na ordem em que serao 
realmenle executados durantc a avaliaęao da expressao. A Tabela 5.5 da diversos exemplos dc fórmulas inlixas e 
suas equivalentes em notaęao polonesa invertida. 



percorrcr a formula cm notaęao polonesa invcrtida e extrair uma instruęao 
oonstante ou variavel. produza unia instruęao para passa-lo para a pilha. s e „ f lntl °l 0 - Se 
instruęao para cfetuar a opcraęao. simbolo lor 


simholo for uma 
urn opcrador. produza unia 

5.4.9 Modos de endereęamento para instruęóes de d 

Atć aqui cxaminamos apcnas instruęóes que operom sobrc dados. bistru 
dimenio) tambem precisam ile modos dc endereęamento pura especificar o en 1 S ° f* V *° <e c ^ umu das de proce- 
mos utć aqui tambem luneionam, cni grandę parte, para dcsvios. O endereca Vh - ,m,dos que examina- 

sibilidade. simplesmente incluindo o endereęo-alvo completo na instruęao niento ,rct0 som diivida, uma pos- 
Contudo. outros modos de endereęamento tainbem fazem sentido. Ende 
mile que o programu calculc o cndercęo-ulvo, coloquc-o em urn registrador e ' t n< ** reto llc re S' slr: ‘dor per- 

flexibilidade, ja que o cndereęo-alvo e calculado no tempo dc execuę3o Mas h«; Ul< ' 1 * a ‘ ^- ssc modo da a maior 
de para criar bugs que sao quasc inipossivcis de achar. m m 0 f e rcce a maior oportunida- 

Um outro modo razoavel e o indcxado. cujo deslocamento em relaęao a um 
cida. Tern as mesmas propriedades do modo dc endereęamento indireto de ret™ rC8 ' Slradl)r d uma distiincia conhc- 
Uma oulra opęao e endereęamento em relaęao ao PC (eontador de pro 8 N J °J\ 

(cum sinal) na própria instruęao ć adicionado ao eontador de programa para obte™”! u CSSC mt>do ' 0 des ł°camento 
ii simplesmente o modo indexado, usando o PC como registrador. 0 en erc( r°-alvo. Na vcrdade, csse 

5.4.10 Ortogonalidade de opcodes e modos de ende 

Do porno de vista do software, instruęóes e endereęamento deveriani ter um ■ ° 

ro minimo de formatos dc instruęao. Essa estrutura facilita ao cnmpilador pr , ma e! ' ( ’ rut(Jra regular. com um minie 
dcvem permitir todos os modos dc endereęamento onde quer quc faęa sentido /tu, .I** a ’ d '^° ^ ,)dos os opcodes 
rcs devem estar disponiveis para todos os modos registradores. incluindo o r*, , Cm ° ma ' s ’ Iodl)s os registrado- 
pilha (SP) e o eontador dc programa (PC). nieiro c quadro (FP). o ponteiro de 

Como exemplo de um projeto limpo para uma maquina de tres endcreco 
dc 32 bits da Figura 5.19. Sao suportados atć 256 opcodes. No fomiato | tada^ C ° nS , 1 - Cre os * ?orrnatos de instruęao 
tes o um registrador dc destino. Todas as instruęóes aritmćticas e lógicas usam" 8 *? ° tCm d °‘ 8 re 8 is,rndores - fon - 
O eampt) de 8 bies nflo utilizado da extremidadc pode ser usado par a jjf, essa T 0 ’ 81 . 0- . 
exemplo. um opcode podena ser alocado para todas as opcraęócs de p onlo *^ enctałr ° -'dicional da instruęao. Por 
fazer a distinęao entre elas. Aliim disso. se o bit 23 cstivcr marcado, o formatu ^ l V ante ’ UNand<> <> campo extra para 
e mais um registrador. mas uma constante imediata de 13 bits, com sinal. i ns t^ |riv ^ Sa ™ > c ° sc S uncl() operando nao 
usar esse formato para rcfercnciar memória em modo indcxado. ę L0AD c STORĘ tambem podem 

E prcciso uma pequcna quamidade dc instruęóes adieionuis, como desvi 
litcilmenic se ajustar ao formato 3. Por cxcmplo. um opcode podena ser desienad' CondlClonais - ma « clas poderiam 
mada de proccdimcnto etc.. deixando 24 biLs para um deslocamento em rela-- ° UCa<la< * C8V '°( COł ldiciorml),cha- 
camento seja contado em palavras. a faixa seria ± 32 MB. Alćm disso, algunso° ^ PC- Admil > ndo que esse dcslo- 
insiruęóes LOAD e STORĘ, que precisam de deslocamcntos longos de formato Fl^ fK ^ ,unani scr res ervados para 
(por cxemplo, somente RO poderia scr carregado ou amiazenado), porćm seria seriam tota lmente gerais 

Agora considcre um projeto para uma maquina de dois endcreęos q Uc p^j usadł>s ntramente. 
qualquer um dos operandos. O projeto ti mostrado na Figura 5.20. Essa maqui 6 Uma pa,uvra dc memória para 
ria a um registrador. somar um registrador a uma palavra de memória. somar^^ 0 SOniar Umapa,uvni dc 
somar uma palavra de memdria a uma palavra de memória. Hoje, os acessos a rcg , lstr ' ldor a um registrador ou 
portanto esse projeto ainda nao ti popular, mas. se os progrcssos na tecnolos’ 3 , memrtria sa,) ™iativamente caros, 
acessos a memória baratos no 1'utum. produzir código para esse projeto se' Lac * le ° u memória tomarcm tis 
PDP- lico VA.\ loram inaquinas que alcanęaram imenso sucesso c doTnj na ' Pan,CUlan,temc laal e cficiente. O 
durante duas dticadas usando projetos semelliantes a esse. am ° mundn dos minicomputadores 


fuj tira 5.19 

Projeto simples para os 
lormalos de instruęao 
de utną mapuina de tres 


Fluura 5.20 

Projeto simples para os 
formatos de Instruęao 
de uma maąuma de tres 
endereęos. 
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Nesse projcto temos, mais uma vez. urn opcode de 8 bits, mas agora temos 12 bits para especitkar a fonte e 
12 bits para especificar o destino. Para cada operando, 3 bits dao o modo, 5 bits dao o registrador e 4 bits dao o dcs- 
locamento. Com 3 bits de modo podemos suportar modos imediato. direto, registrador. indireto de registrador. indc- 
xado e de pilha, c ainda sobra cspaęo para dois modos futuros. Esse projeto e limpo e rcgular. e facil dc eompilar 
para cle. alem de ser bastante flexfvel, em especial se o contador dc programu, o ponteiro de pilha e o ponteiro de 
variavcl local cstiverem cntre os rcgistradores gerais quc podem ser acessados. 

O unico problemu e que. para endcreęamento direto. precisamos de mais bits para o endereęo. A soluęao ado- 
tada pelo POP-11 e o VAX foi adicionar uma palavra extra ii instruęao para o endercęo de cada operando endcrcęa- 
du diretamente. Tambem poderfamos usar um dc dois modos de endereęamento disponfveis em lugar dc um modo 
indexado com um deslocamenlo de 32 bits apds a instruęao. Assim, na piór das hipóteses, por exempio, uma ADD 
mcinória para memória cujos dois opcrandos fosscm endcrecados diretamente, ou utilizasscm uma forma indexnda 
longa, leria 96 bits de eomprimento e usaria tnis cielos dc barramento (um para a instruęiio, dois para dados). Por outro 
lado, a maioria dos projetos RISC exigiria no mfnimo 96 bits, provavelmentc mais, para somar uma palavra arbitrjiria 
na memória com uma outra palavra arbitrariu na memória, e usaria no nunimo quatro cielos dc barramento. 

H4 muitas altcmativas poss!veis para a Figura 5.20. Nesse projcto e possivel executar a deolaraędo 

i = i; 

em uma instruęiio de 32 bits, contanto que ambas. i e j, cstejam entre as 16 primeiras variaveis locais. Por outro 
lado. para variaveis alćm de 16. temos de ir a deslocamentos de 32 bits. Uma opęiio seria um outro formato com 
um dnico deslocamcnto de 8 bits em vez de dois deslocamentos de 4 bits, mais uma rcgra que inlbrma que a fonte 
ou o destino poderiam usd-lo, mas nao ambos. As possibilidades e compromissos sao ilimnados, e os projetistas de 
mdquinas devem jogar com muitos fatores para obter um bom resultado. 

5.4.11 Modos de endereęamento do Pentium 4 

Os modos de endereęamento do Pentium 4 sao muito irregulares e diferentes dependendo de determinada ins¬ 
truęao estar em modo de 16 bits ou modo de 32 bits. Vamos ignorar o modo de 16 bits; o modo de 32 bits ja ć ruim 
o suficiente. Os modos suportados sao imediato. direto. registrador. indireto de registrador, indexado e um modo 
especial para endcreęar elemcntos de vetores. O problemu e que nem todos os modos se aplicam a todas as instru- 
ęóes e nem todos os rcgistradores podem ser usados em todos os modos. Isso dificulta muito mais a tarefa do escri- 
tor de cotnpilador e resulta em código piór. 

O byte MODĘ da Figura 5.10 controla os modos de endereęamento. Um dos operandos e especificado pela 
combinaęao dos campos MOD e R/M. O outro e scmprc um registrador c e dado pelo o valor do eampo REG. As 32 
combinaęóes que podem ser especificadas pelo eampo MOD de 2 bits c pelo eampo R/M de 3 bits estdo relaciona- 
das na Tabela 5.7. Se ambos os campos forem zero, por exemplo, o operando e lido do endereęo de memória con- 
tido no registrador EAX. 

' As colunas 01 e 10 envolvem modos nos quais um registrador e somado a um deslocamcnto de 8 ou 32 bits 
quc vem após a instruęao. Se for selecionado um deslocamento de 8 bits, antes de ser somado cle e estendido em 
sinal para 32 bits. Por cxcmplo, uma instruęao ADD com R/M -011. MOD - 01 e um deslocamcnto de 6 calcula a 
soma de EBX e 6 e le a palavra de memória naquele endereęo para um dos operandos. EBX nao ć modificado. 

A coluna MOD - 11 da uma opęao de dois rcgistradores. Para instruęóes de paluvra ć usada u primeira opęao; 
para instruęóes de bytes 6 usada a scgunda opęao. Observe que a tabela nao e inteiramente rcgular. Por excmplo, 
nao ha nenhutn modo de endcreęar indiretamenle por EBP e nenhum modo de ter deslocamento em rclaęao a ESP. 

Em alguns modos. um byte adicional denominado SIB (Scalę, Index, Ba.se — escala, indice, basc) vem logo 
após o byte MODĘ (veja a Figura 5.10). O byte sib espeeifica um fator de escala. bem como dois rcgistradores. 
Quando um byte STB csta presente, o endereęo do operando e calculado multiplicando o registrador de fndice por 


r 


Tatusia s.7 Modos de endereęamento de 32 bits do Pentium 4. M[x] e a palavra de memóna em x. 


MOD 


R/M 

00 

01 

10 

11 

000 

M[EAX] 

M(EAX + 0FFSET8] 

M[EAX f OFFSET32] 

EAXou AL 

001 

M[ECX] 

M[ECX + 0FFSET8] 

M[ECX + 0FFSET32] 

ECX ou CL 

010 

M[EDX] 

M[EDX + 0FFSET8] 

M[EDX + 0FFSET32] 

EDX ou DL 

011 

M[EBX1 

M[EBX + 0FFSET8] 

M]EBX i- 0FFSET32] 

EBX ou BL 

100 

SIB 

SIB com 0FFSET8 

SIB com 0FFSET32 

ESP ou AH 

101 

Direto 

M(EBP + 0FFSET8] 

M[EBP + 0FFSET32] 

EBP ou CH 

110 

MIESI] 

M[ES1 + 0FFSET8] 

M[ESI + 0FPSET32] 

ESI ou DH 

tli 

M[EDI] 

M(EDI + 0FFSET8] 

MfEDI + 0FFSET32] 

EDI ou BH 




i 


Figura 5_2i 

Acesso a a[i]. 



>em EAX 

Relerśnctas do modo SIB 
M|4 • EAX + EBP - fl| 


1. 2.4 ou 8 (dependendo dc SCALĘ), somando-o ao rcgistrador dc basc c. por lim, somando um deslocamcnto de .8 
ou 32 bits, dependendo dc MOO. Quasc todos os registradorcs podcm ser usados como indice ou basc. 

Os modus SIB siło uteis para accssar elementos dc vetorcs. Por exemplo. eonsiderc a decluraęao Java 

lor (I = 0:1 < n; I++) a[i] = 0; 

onde a ć um arranjo de intciros de 4 bylcs locaJ para o procedimento corrcnte. Normalnienie o EBP e usado para 
apontar para a base do quadm da pilha quc contćm as variaveis locais c vctores. como mostra a Figura 5.21.0 com- 
pilador poderia monter i cm EAX. Para accssar //[<]. ele usaria um modo SIB eujo endercęo de operando fosse a soma 
de 4 x EAX. EBP e 8. Essa instruęao poderia armuzenur cm a[i\ com uma unica instruęao. 

Esso modo vale a pena? Diffcil di/er. Nito ha duvida de que essa instruędo. quando adequadamente usada. cco- 
nomiza alguns ciclos. A frcqilencia com que ć usada depende do coinpilador e da aplicacito. O problema e quc essa 
instruęao ocupa uma certa quantidade de arca de chip que poderia ter sido usada de modo diferente se essa instru¬ 
ęao nao cstivesse prescntc. Por cxemplo. a cache de nivcl 1 poderia ser maior, ou o chip poderia ser menor. o que 
possivelmcnle pennitiria uma vclocidade dc relógio ligeiramente mais alta. 

Esscs sao os tipos de compromissos que os projetistas enlrentam constantemente. Em geral sao realizadas 
cxtcnsivas simulaęóes de execuęuo antes dc moidar qualquer coisa cm sillciu, mas essas simulaęóes exigem quc se 
tenha uma boa ideia da posstvel carga dc trabalho. Apostar quc os projetistas do 8088 ndo incluiram um navegador 
Web cm seu conjunto de teste e ganhar na certa. Ainda assim, um grandę ntimero dc descendentcs daque!e produ- 
to agora e usado primariamente para navegar na Web. portanto as decisóes tomadas hii 20 unos podem estar total- 
mentc erradas para as aplicuęóes eorrentes. Todavia, em nomu da compatibilidade. uma vcz que uma caraetenstica 
enu-e no chip, e impossivel tini-la. 

5.4.12 Modos de endereęamento da UltraSPARC III 

Na ISA UltraSPARC, lodas as instruęóes usam endereęamento imediato ou de modo rcgistrador. cxccto as quc 
cndereęam memória. Para o modo registrador. os 5 bits simplesmcnte informam qual rcgistrador usar. Para modo 
imediato. uma constantc de 13 bits (com sinal) fomece os dados. Nao ha nenhum outro modo prcsenle para as ins¬ 
truęóes antmeticas, lógicas c similares. 

Tres tipos de instruęftes cndercęam memória: LOAD. STORĘ e uma instruęao dc sincrnnizaęao de multiproccs- 
sador. Instruęóes LOAD c STORĘ tern dois modos para cndcrcęar memória. O primeim modo calcula a soma de dois 
registradorCfS c cndcrcęa indiretamente por cla. O outro ć indcxaęao tradicional com um deslocamcnto dc 13 bits 
(com sinul). 

5.4.13 Modos de enderecamento do 8051 

O 8051 tem uma estrumni de endereęamento razoavelmentc regular. Hd cinco modos bdsicos. O mais simples 
c um modo implicito que usu o acumuludor. Muitas instruęóes combinam um operando com o acumulndor, lais 
como somur, subtrair. efeluur operaęues AND ou OR entre um operando c cle. Instruęócs que usam o acumuludor 
ndo tern bits cspcciais para indicar o acumuludor que estu sendo usado. Lusse lalo esta implicito no opcodc. 

O segundo modo e o modo rcgistrador. no qual o operando esta om um rcgistrador. Registradorcs podcm ser 
usados como fontes c tambem como destinos. O terceiro modo e o endereęamento direto. no qual o operando esui 
nu memória em um endercęo eontido na própria instruęao. O quarto modo ć o indireto de rcgistrador. no qual um 
registrador contćm um pontciro para o operando. Urna vez que registradorcs normais tfim 8 bits de largura. operan- 
dos cndereęados desse modo devem estar nos 256 bytes da parte mais baixa da memória. O quinto modo e o ime¬ 
diato, no qual o operando ć parte da própria instruęao. 

O 8051 tambem icm um modo de endereęamento cspccial usado em um mimem limitado de instntęócs para 
aeessar memória. Lcmbrc-se de que um 8051 pode ter ate 64 KB de memória cxtcma de programu e mais 64 KB 
de meinona extema dc dados. E preeiso ter algum meio dc endereęar essas memórias. A memória extema de pro- 
grama ć munipulada por duas instruęócs: LJMP. que toma um deslocamcnto de 16 bus e pode saJtar ate qualquer 
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cndcrcęo na tnemória: e LCALL, que lambćm toina um deslocamcnto de 16 bits c pode clminar unia sub-rotina cni 
qualquer lugar na memória. 

O acesso ik memória exlerna de dados i manipulado de nianeira diferente. O 8051 leni um registrador de pon- 
teiro de 16 bits dcnominado DPTR que pode conter um endereęo de memória de 16 bits. Programas podem carre- 
gS-lo e ennlo endereęar indiretamenle por cle para rcferenciar um byle em qualquer lugar do cspaęo de memória 
de 64 KB. 

5.4.14 Discussao de modos de endereęamento 

Agora jś estudanios um grandę numero de modos de endereęamento. Os usadns pelo Pentium 4, 
UltraSPARC III e 8051 estao resumidos na Tabela 5.8. Todavia, como jd dissemos. nem todo modo pode ser 
usado cm loda instruęao. 

Na pnitica. nfio sao necessarios muitos modos de endereęamento para unia ISA efetiva. Urna vez que, hoje em 
dia. a maioria dos códigos escritos nesse nfvel serii gerada por compiladores (com a posshel rxccęao do 8051). o 
aspeeto mais importanle dos modos de endereęamento de urna arquitetura 6 qne haja poucas opęóes e que essas 
sejatn claras. com custos (cm termos de tempo de execuęao e tamanho de código) que possam ser caleulados ime- 
diatamente. Hm geral, isso significa que urna maquina deve adotar urna posięao extrema: ou deve oferecer todas as 
opęóes possfveis ou deve oferecer apenas urna. Qualquer coisa enlre essas duns significa qtte o compilador terń de 
dccidir entre opęóes sem ter o conhecimento ou a sofisticnęao suficicntc para faze-lo. 

Assini, as arquitcturas mais limpas cm geral lem somenle um numero muito pequeno de modos de endcreęa 
mcnto. com limitaęoes estritas a sua utilizaęao. Na prdlica. ter os modos iniediato, direto, registrador e indexado em 
geral 6 suficicntc para quase todas as aplicaęóes. Aldm disso, todo registrador (incluindo ponteiro de variavel local, 
ponlciro dc pilha e contador de progrania) deve ser usdvel onde quer que haja neccssidade de um registrador. Modos 
de endereęamento mais complicados podem reduzir o numero de instruęóes, porem ii custa da introduęao de seqiien- 
cias dc opcraęóes que niio podem ser faeilmente executadas em paralelo com outras operaęńes seqtienciais. 

Agora conclufmos nosso estudo dos vdrios compromissos poss(veis entre opcodes c cndcreęos c v dr i as formas 
ile endereęamento. Quando vocfi abordar um novo computador, deve examinar as instruęóes e os modos de endere- 
ęamento nao apenas para verificar quais estao disponfveis, mas tambćm para entender por que essas opęóes foram 
cscolhidas e quais teriam sido as conseqli@ncias de opęóes altemativas. 


Tabela 8.8 Comparaęao entre modos de endereęamento. 


1 Modo de endereęamento 1 

Pentium 4 

1 UltraSPARC III 1 

80S1 ij 

Acumulador 



X 

Imediato 

X 

X 

X 

Direto 

X 


X 

Registrador 

X 

X 

X 

lndireto de registrador 

X 

X 

X 

Indexado 

X 

X 


De base indexado 


X 


Pilha 





5.5 Tipos de instruęao 

Instruęóes de nfvel ISA podem ser divididas em aproximadamente meia duzia de grupos que guardam rela(iva 
similaridadc dc urna nidquina para outra ainda quc possam-ser diferentes nos detalhes. Todo computador tem algumas 
instruęóes fora do comunt. acrescentadas para manier a compatibilidade com modelos anteriores. ou porque o arqui- 
teto leve urna idćia brilhanle, ou possivelnientc poique unia agenda do govemo pagou a um fabricante para incluf-las. 
Logo adiante tentaremos abranger todas as categorias mais comuns, sem nenhuma intenęao de sennos exaustivos. 

5.5.1 Instruęóes para movimento de dados 

Copiar dados de um lugar para outro 6 a mais fundamenta! de todas as operaęóes. Por copiar queremos dizer a 
criaęao de um novo objęto, com padriio de bits identico ao original. F.ssa utilizaęao da pa!avra *movimento'. ou 
‘mudanęa’. ć urn pouco diferente de sua utilizaęao em linguagem corrente. Quando dizemos que Marvin Mongoose 
se mudou de Nova York para a Califómia, isso n3o significa que tenha sido criada unia cópia identica do Sr. 
Mongoose na Califómia c que o original ainda esteja cm Nova York. Quando dizemos quc o conteudo da localizaęio 
dc memória 2(KM) ‘ foi mudado' ou Toi movido’ para algum registrador, isso sempre significa qne urna cópia idSnti- 
ca foi crinda no registrador e que o original continua inloctWel na localizaęilo 2(XX). Um nonie melhor para instruęóes 
de movimento de dados seria instruęóes de ‘duplicaęao dc dados', mas o temio *movimento de dados' ja se firmou. 
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Hd iluas raziłeś por que dailos podem ser cnpiados de uma localizaęao para outra. Uma e fundamenta): a atri- 
buięSo dc valores a varidvcis. A atribuięrlo 

A = B 

e implementada com a cópia do valor que estd no cndercęo de memória H para a localizaęao A porque o progra- 
mador disse que e para fazer isso. A scgunda razao para copiar dados e representd-los para acesso e utilizaęao eficicn- 
les. Como ja vimos, muitas instruęOes só podem aeessar varidveis quando estas estSo disponfveis eni registrado- 
res. Uma vez que ha duas fonles possfvcis para urn item de dado (memória ou rcgistrador) e que hd dois destinos 
possfveis para urn item de dado (memória ou registrador), hd quatro tipos diTerenlcs poss(veis de cópia. Alguns 
compuladores tSm quatro instruęOes para os quatro casos. Outros t£m uma instruęao para todos os quatro casos. 
Hd outros ainda que usam LOAD para ir da memória atć urn registrador. STORĘ para ir dc urn registrador alć a 
memória. MOVE para ir de urn registrador atć utn outro registrador e nenhuma instruęao para uma cópia de menió- 
tia para memória. 

InstruęOes de moviinento dc dados devem indicar, de alguma forma, a quantidade de dados a ser movida. 
Em algumas ISAs existcm instruęOes para mover quantidades varidveis de dados que vao de I bit d memória 
inteira. Em mdquinas de comprimento de palarni fixo, a quantidade a ser movida muitas vezes 6 exatamente uma 
palavra. Qualquer coisa a tnais ou a menos deve ser executada por uma rotina de software que usa deslocamen- 
lo e fusfio. Algumas ISAs fornecem capacidade adicional para copiar menos do que uma palavra (usualmente em 
inerementos de bytes) e para copiar varias palavras. Copiar varias palavras ć complicado. em particular se o 
ntimero maximo de palavras for grandę, porque tal operaęOo pode lcvar urn longo tempo e pode ter de ser inter- 
rompida no meio. Algumas mdquinas de comprimento dc palavra variavel tem instruęOes que especificam ape- 
nas endereęos de fonte e destino. mas nao a quantidade. O movimento continua ate que seja cncontrado no dado 
um campo de finał dc dado. 

5.5.2 Operaęóes diadicas 

OperaęOes diddicas siło as que combi nam dois operandos para produzir um resullado. Todas as ISAs t?m 
instruęOes para efetuar adięao e subtraęilo de inteiros. A multiplicaęSo e divis3o dc inteiros tambem sao quase 
um padrao. Achamos desnccessdrio explicar por que computadores sao equipados com instruęOes aritmeticas. 

Um outro grupo de operaęOes diddicas indui as instruęOes booleanas. Emitora existam 16 funęOes boo 
leanas de duas varidveis, poucas ntdquinas tSm instruęOes para todas as 16, se ć que alguma tem. Usualmente 
estao presentes as operaęOes AND. OR e NOT; its vezes tambem estao presentes as operaęOes EXCLUSIVE OR. 
NOR e NAND. 

Uma utilizaęao importanle da operaęao AND e extrair bits de palavras. Considere, por exemplo. uma 
mdquina com palavras de 32 bits de comprimento, na qual estao armazenados quatro caracteres de 8 bits por 
pa!avra. Suponha que e necessdrio separar o segundo caractere dos outros tres para imprimi-lo; isto e. e neccs- 
sśrio criar uma palavra quc contcnha aquele caractere nos 8 bits da extrcma direita, conhccidos como justifica- 
dos pela direita. com zeros nos 24 hils da extrcma esquerda. 

Para extrair o caractere, a palavra que contćm o caractere passa por uma operaęao AND com unta conslante 
denominada mascara. O resullado dessa operaęao ć quc os bits indesejados sao todos alterados para zeros — isto 
e, sao mascarados, como mostramos a seguir. 

101101II 10111100 11011011 10001011 A 
00000 000 111111 11 000000 00 00000000 B (mdscara) 

00000000 10111 100 00000000 00000000 A AND B 

Em seguida. o resullado seria deslocado 16 bits para a direita para isolar o caractere a ser extrafdo na extremidade 
direita da palavra. 

IJma utilizaęao importante da operaęSo OR e empacotar bits em uma palavra, onde empacotar signilica o inver- 
so de extrair. Para alterar os 8 bits da extrema direita de uma palavra dć 32 bits sem perturbar os outros 24 bits. em 
primeiro lugar os 8 bits indesejados sao mascarados c entao o novo caractere passa por uma operaęao OR. como 
mostramos a seguir. 

ioi ioi u ioi u ioo lioi ion loooioi i a 

111111 11 11 i 11111 11111111 (KIOOOOOO B (mdscara) 

101101II 101II100 11011011 00000000 A AND B 

00000000 0000000 0 0000000 0 01010111 C 

101101II 1011 ll(K) 11011011 OIOIOIII (A AND B) OR C 

A operaęSo AND tendc a remover 1 porquc nunca hd uma quantidade ntaior do que I no resullado do que em 
qualquer dos operandos. A operaęSo OR tendc a inserir I porque sempre hd no mfnimo tantos I no resullado quan- 
to no operando que tiver o ntaior ntimero de t. A operaęao EXCLUSIVE OR. por outro lado. 6 simćtricn. e tende, na 
raćdia, nem a inserir nem a rcmover I. F.ssa simelria em relaęSo a I e 0 ć iitil ocnsionalmente. por cxemplo, na gera- 
ędo dc numeros alcatórios. 
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Hoje, a maioria cios computadores tainbćm suporta um conjunto dc instruęóes de ponto Humanie quc corrcs- 
pondetn apmximadamente a operaęóes aritmćlicas cont inteiros. Grandę parte das mdquinas fomece ao tnenos dois 
comprimentos de niimerus de ponto lluluanle. os mais curtos para velocidade e os mais longos para ocasióes em 
cpie s2o ncccssśrios muitos bits de precisao. Embora haja muitas variaęóes posslveis para furmatus de ponto flu- 
luante, agora um unico padrao 6 adolado c|uase universalnifcnte: IEEE 754. Ntimeros de ponto flutuante e IEEE 754 
serao discutidos no Apendice B. 

0.5.3 Operaęóes monadicas 

Operaęóes monadicas teni um só operando e produzem um só resultado. Como £■ preciso especificar um ende- 
reęn a ntenos do que para uma operaęao diadica. 9s vezes as instruęóes s5o mais curtas. embora freqtientemente 
outras informaęóes tenham de ser especificadas. 

Instruęóes para deslocar ou rodar o conteiido de uma palavra ou byte sao bastante uteis e costumam ser fome 
cidas cm diversas variaęóes. Deslocamenlos sao operaęoes nas quais os bits sao movidos para a esquerda ou para a 
dircita, com bits que sao empurrados para fora na extremidade da palavra e. portanto. sao perdidos. Rotaęóes sao 
deslocamentos nos quais bits empurrados para fora por uma extremidade reaparecem na outra cxtrcmidade. A dife- 
renęa entre um deslocamento c uma rotaęao e ilustrada a seguir. 

00000000 00000000 00000000 01110011 A 

00000000 00000000 00000000 00011100 A deslocado 2 bits para a direita 

11000000 OOOOOO(K) 00000000 00011100 A rolacionado 2 bits para a direita 

Deslocamentos c rotaęóes para a esquerda e para a direita san ambos uteis. Se uma palavra de n bits for roda- 
da para a esquerda k bits. o resultado sera o mesmo caso ela tivesse sido rodada para a direita n k bits. 

Deslocamentos para a direita costumam ser executados com extens9o de sinal, o que significa cpie posięóes 
desocupadas na exlremidade csquerda da palavra sao preenchidas com o bit dc sinal original. 0 ou I. E como se o 
bit de sinal fosse airastado para a direita. Entre outras eoisas, isso significa que um ndmero negatlvo conlinuard 
negativo. Essa situaęao € ilustrada a seguir para deslocamentos de 2 bits para a direita. 

III lilii 11111111 IIII1111 11110000 A 

00111111 11111111 111 111 11 11111 l(H) A deslocado sem extensao de sinal 

11111111 11111111 11111111 11111100 A deslocado com extcnsao de sinal 

Uma ulilizaęao importante do deslocamento £ multiplicaęao e divisao por potencias de 2. Se um inteiro positiw 
for deslocado para a esquerdu k bits. o resultado. a nSo ser que haja excesso (oreijlow), e o numero original multipli 
cado por 2*. Sc um inteiro positivo for deslocado para a direita k bits. o resultado e o ndmero original dividido por 2*. 

O deslocamento pode ser usado para acelcrar ccrtas operaęóes arilinćticas. Considcre. por exemplo, calcular 
18 X n para algum inteiro positivo n. Como 18 X n = 16 X n + 2 X n, 16 X n pode ser obtido dcslocando uma 
cópia de ii 4 bits para a csqucrda. 2 X n pode ser obtido dcslocando n 1 bil para a esquerda. A soma desses dois 
numerns 6 18 X «. A multiplicaęao foi efetuada por um movimcnto, dois deslocamentos e uma adięao. que costu- 
uia ser mais rdpida do que uma multiplicaęao. F. claro que o compilador só pode usar esse estrutagema quando um 
fator for uma constante. 

Todavia. deslocar ndmeros negativos. mesmo com extensao dc sinal. da resultados bem difercnles. Considcre, 
por exemplo, o numero de complemeuto de 1, 1. Se deslocado I bit para a direita. ele dii 3. Um outro desloca- 

menio de I bit para a esqucrda dd -7: 

11111111 11111111 11111111 11111110 -1 em complemento de I 
11111111 11111111 11111111 lilii 1 CK) -1 deslocado 1 bit para a esquerda = -3 
IIII1111 1111II11 11111111 11111000 -I deslocado 2 bits para a csquerda = -7 

Deslocar para a csquerda ntimeros negativos em complemento de I nao pennite a multiplicaęao por 2. No 
entanto, deslocar para a dircita simula a divisao corretamentc. 

Agora considere uma representaęao em complemento de 2 do numero -1. Quando deslocado 6 bits para a 
dircita com extcnsao de sinal, ele da - I. o que e incorreto porque a parte inteira de — \/M ć 0: 

INI IIII 11111111 III III II 11111111 -1 en> complemento de 2 

11111111 11111111 11111111 11111111 I deslocado 6 bits para a dircita = I 

Em geral, o deslocamento para a dircita introduz erros porque trunca para rnenos (em direęao ao inteiro mais 
negativo), o que ć incorreto na aritmólica dc inteiros para ndmeros negativos. O deslocamento para a esquerda. 
entrelanto, simula multiplicaęao por 2. 

Operaęóes de rotaę3o sflo uteis para empacolar e desempacotar seqii8ncias de bits de palavras. Se quisermos 
testar todos os bits eni uma palavra. rodar a palavra I bit por vez para qualquer lado succssivamente coloca cada 
bil no bit de sinal, onde ele pode ser testado com facilidadc, c tambćni restaura a palavra a seu valor original quan- 
do todos os bits tiverem sido testados. Operaęóes de rolaę3o sao mais puras do que operaęóes dc deslocamento 
porque nenhuma informaęao ć perdida: uma operaę3o de rotaęao arbitr.lria pode ser negada com uma outra opc- 
raę3o de rotaęao. 
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Ccrias operaęóos diadicas ocorrcm com tama lreqtiencia com determinados opcnmdos que. as vezes, as ISAs 
t6m opcraęńes nnmadicas para efetud-las rapidamcnte. Mover zero puru uma palavra dc memória ou registrador ć 
cxłrcmumciilc coiuum na imcializaęao dc um cAlculo. (Maro quc mover zero ć um caso cspccial das insiruęóes gerais 
dc innvinienlo dc dados. Por questao de eticićncia, muitas vezcs ć fornccida uma operuęao CRL com um dnia) ende- 
reęo: u localizaęao a ser liberudu, isto e, ajuslada para zero. 

A operuęao dc somar I a uma palavra lambćm ć comumentc usada para contagein. Uma forma monMcu da ins- 
truęAo ADO e a operuęao INC. que suma 1. A operaęAo NEG ć um outro cxcmplo. Ncgar X ć, na vei dade, calcular 0 
X, uma subtraęao diiidica; porem, mais uma vez, por causa de sua ulilizaęAo lrcqUeute, As vezcs ć fornecida uma ins- 
truęAo NEG sepurada. Nesse caso ć importante obscrvar a diferenęa enlrc a operuęao arilmetica NEG e a operuęao lógi- 
ca NOT. A o|>eraęao NEG produ/ o imerso aditivo dc um mimem (o numeru que. quando tornado ao original, da 0). 
A operaęAo NOT simplesmeiitc inverte todos os bils individuais na palavra. As operaęóes sAo muito sunilares e, na vcr- 
dudc. para um sisiemaquc usa representaęao de compleinento de I, elas sAo idenlicas. (hm arilmetica dc complemcn- 
lo de 2, a instruęao NEG e execuuida primeim invertendo todos os bils individuais, e entao somando 1.) 

Instruęóes diadicas e momidicas costumam ser agrupadas conforme sua ulilizaęAo, eni vez de pelo mimem de 
operamlos que requercm. Um grupo abrange operaęóes aritmćticas, incluindo negaęao. O outro grupo inclui opera- 
ęóes lógicas e deslocamento, cisto que essas duas categorias na maioria das vezes sAo usadas ern conjunto para rea- 
iizar esliuęao de dados. 

5.5.4 Comparaęóes e desvios condicionais 

Quu.se todos os programas precisam da capacidade de testar seus dados e alterar a seq(lfincia dc instruęóes a 
ser cxccutada com base nos resullados. Um cxemplo e a funęAo raiz quadradu, \/x. Se ,v for negalivo, o proccdi- 
mento cmile uma tnensagem de erro; caso contrdrio, calcula a raiz quadrada. Uma lunęao sqrl tent de testar a c etn 
seguida dc»siar. ilependendo de ele ser negativo ou lido. 

Um metodo cnmum para fazer isso e providettciar instruęries de desvio condicionul que teslam algutna condi- 
ęAo e desviam para um delerminado endereęo dc memória se a condięAo for cutnprida. As vezes um bit ua instru- 
ęAo indica se o dcsvio devc ocorrer sc a condięAo for cumprida ou se a condięAo nao for cutnprida, respeclivamcn- 
le. Muilas vczes o cudcrcęo-alvo nAo ć absoluto, mas relalivo A instmęAo coricnte. 

A eondięao mais cornuin a ser testada e se um dcterininado bit nu nuiquiua e 0 ou uAo. Sc uma inslruę&o les- 
tar o bil de sinul de um mimem e desviar paru RÓTULO se ele for 1, as decluraęóes que comeęam em ROTULO 
scrAo cxccutadus se o inimero for negalivo, e us decluraęóes que vćtn após o desvio condicionul serao executudas 
se o mimem for II ou positivo. 

Muitas tnAquinus tćm bits de código de condięAo que sao usados para indicar condięóes especificas. Por cxcm- 
plo, pinie havcr um bil dc cxcesso que ć marcado em I sempre que uma operaęAo urilmćticu der um resultado ineor- 
reto. Tcstundo esse bit, \crificamos excesso nu operuęao aritmćtica anlerior, dc modo quc, se ocorrcu um excesso, 
pode se fuzer um dcsvio para uma rotina ile erro c executar aęóes corretivas. 

Dc modo seinelhantc, alguns processadorcs tftm um bit de vai-um quc ć marcado qututdo um vui-utn transbor- 
du pata ti bil da i. \ trema esquerda, por exemplo, se dois oiimems negativos forem tornado*. Um vai-um do bil da 
extrema esquerdu e bem nortnal e nao deve ser confundido com um excesso. Testar o bil de vai um ć necessArio 
para aritmćtica dc precisAo miiltiplu, isto ć, quando um inteiro e representado por duas ou mais pahwras. 

Testar o valor ć iinportanlc para laęos c muilas outras finalidudes. Se todas as instruęóes de desvio condicio- 
nal lesiurem somente I bil, testar uma determinada palavra para zero precisaria dc um tesle separudo para cudu bit 
para garanlir quc nenlium era um I. Para evitar essa siluaęAo, muitas mtiquinas tern uma instruęao para testar uma 
pałavra e desviar sc cla for zero. Ć claro que essa soluęao apeuas passa u responsabilidatlc pani a microarąuitetura. 
Na pralicu, o liurdware usualinente conlćm um registrador eujos bits passam todos por uma operaęAo OK para dar 
um dnico bit que infonna se o registrudor conlćm quaisquer bits I. O bil Zna Figura 4.1 normalnienie seria calcu- 
larlo por urna operaęan OR com todos os bits de saida da ULA e entAo se inveneria o resultado. 

Comparar duas pula was ou caracteres para ver se sao iguais, ou, se nao forem, qunl deles e maior, tambćnt e 
imponantc. por escrapio, em elassificaęao. Para cxccutaresse teste sao necessArios tres endcreęos: dois para os itens 
de dudos e um para o endereęo para onde desviar se u condięAo for vcrdudeira. Compuludores cujo fonnato de ins- 
truęAo permite tres endereęos por instruęao nao tern problema algum, mas os que nao tćm esse fomialo de instru¬ 
ęao deseni fazer algutna coisa para contomar esse problema. 

l ina soluęao comum ć fomecer uma instruęAo quc faz uma comparaęAo e ajusta um ou mais bits de condięao 
para registrur o resultado. Uma instruęao subseqUenie pode testar os bits de condięAo e desviar se os dois valores 
coinparados forem iguais. ou diferentes, ou sc o primciro for maior c assim por dianie. O Pentium 4 e a UltraSPARC 
111 usatn essa abordugem. 

HA alguns pontos sutis envolvidos na comparaęAo de dois numeros. Por exemplo, compuraęAo nao e lAo sim- 
ples quunto subtraęao. Se um mirnero positiso muito grandę for compurado com um mimem negalivo muito grun- 
de. a sublraęao resultarA em cxcesso, uma vez que o resultado da subtraęao nAo pode ser representado. Ainda assim, 
u instruęao de comparaęAo devc determinar se o tesle eSpecificado foi sutisfeito e retomar a resposta correta — nAo 
lut nenhum exccsso em comparaęóes. 

Um outro ponto sutil em relaęao a comparaęAo de numeros ć decidir sc os numeros devctn ser ou nio consi- 
derados com sinal Numeros bindrios de tres bits pudem ser ordenados conforme um de dois ntodos. Do menor para 
o maior: 
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A coluna da csquerda mostra os inteiros positivos dc 0 a 7 eni ordem crescenic. A coluna da direila mostra os 
inteiros com sinal 4 n +3 cm complcmenlo de dois. A resposta & pergunta “011 6 maior do que 1007" depende de 
considerar ou mlo que os numeros t8m sinal. A maioria das ISAs tern instruęóes para (tatar amhas as ordenaęóes 

5.5.5 Instruęóes de chamada de procedimento 

Um procedimento 6 um grupo de instruęóes que realiza alguma (arefa e pode ser invocado (chamadb) de divcr- 
sas partes do progratna. O termo sub-rolina muilas vczes 6 usado eni vez de procedimento. eni especial quando se 
refere a programas em linguagein de montagem. Fm Java, o termo usado e metodo (Juandn o procedimento con- 
clui sua (arefa. deve relornar ii declaraęao após a chamada. Portanto. o endereęo de relorno deve ser transmitido ao 
procedimento ou salvo cm algutn lugar de modo que possa ser localizado quando for a hora dc relornar. 

O endereęo de relorno pode ser colocado em qualquer um de tres lugares: na memória. em um regislrador ou 
na pilha. A piór soluęftn ć, de longe. mas muito longe, coloci-lo em urna unica lncalizaęiin dc memória fixa. Nesse 
esquema, se o procedimento chamou um outro procedimento. a segunda chamada faria com que o endereęo de retor - 
no da primeira fosse perdido. 

Urna pequena mclhoria 6 fazer com que a instruęao de chamada de procedimento armnzene o endereęo de 
retomo na primeira palavrn do procedimento. sendo a primeira instruęao cxecutivel a segunda palavra. F.ntao, o pro¬ 
cedimento pode retomar desviando indirelamentc para a primeira pałam ou. se o hardware colocar o opcode para 
desvio na primeira palavnt junto com o endereęo de relorno, desviando diretamente para ele. O procedimento pode 
chamar outros proccdimcntos porque cada um tern espaęo para um endereęo de relorno. Sc o procedimento chamar 
a si próprio. esse csquema falha, porque o primeiro endereęo dc relorno sera deslrufdo pela segunda chamada. A 
capacidade de um procedimento chamar a si mesmo, denominada recursao. ć dc extrenia importSncia para progra 
madores praticos, hem como teóricos. Alćm do mais, se o procedimento A chamar o procedimento /?, o procedi¬ 
mento H chamar o procedimento C, e o procedimento C chamar o procedimento A (recursflo indireta ou cm sćrie 
t daisy-chain )), esse esquema tantbein falha. 

Urna melhoria maior 6 a instruęio de chamada de procedimento colocar o endereęo de retomo em um regis- 
trudor, deixando ao procedimento u responsahilidade de armazenti-lo em um lugar seguro, Se o procedimento for 
recursivo, tera de colocar o endereęo de retomo em um lugar diferente cada vez quc for chamado. 

A tnclhor coisa parn a instruęao de chamada dc procedimento fazer com o endereęo de retomo ć passa-lo para 
unia pilha. Quando o procedimento concluir, ele retira o endereęo de retomo da pilha e o coloca no contador de pro- 
grania. Sc essa fomia de chamada de procedimento estiver disponfvel, a recursao n3o causa nenhum problema espe 
ciul: o endereęo de retomo serii automaticamente salvo dc um modo tal que itnpcęa a destniięao dc cndereęos de 
retomo anteriores. A recursao funciona muito hem sob cssas condięóes. Vimos essa fonnn de salvar o endereęo dc 
retomo em IJVM na Figura 4.10. 

5.5.6 Controle de laęo 

A necessidade dc exccutar um gmpo de instruęóes por um numero fixo de vezes ocorrc freqilentemente e, por 
isso, algumas mdquinas tSnt instruęóes que facilitam essa operaęAo. Todos os esquemas cnvolveni um contador que 
e aumentado ou reduzido de alguma constante cada vez que o laęo e percorrido. O contador tambćm e testado urna 
vez, cada vcz. que o laęo ć percorrido. Se urna certa condięilo ocorrer, o laęo 6 conclufdo. 

Um mćtodo inicializa um aintador fora do laęo e entAo imediatamente comeęa a executar o código do laęo. A 
ultimn instruęao do laęo alualiza o contador c, se a condięilo dc tćrmino ainda nao estivcr satisfeita, desvia dc volla 
A primeira instmęSo do laęo. Caso contrario. o laęo 6 copcluido c passa adiantc, executando a primeira instmęAo 
após o laęo. Essa forma de fazer laęo e caracterizada como laęo do lipo ‘testc no finał' e 6 ilustrada em C na Figura 
5.22(a). (Aqui poderfamos usar Java porquc ela nSo tern urna declaraęao goto.) 

O laęo do tipo tesle no finał tern a seguintc propriedadc: o laęo sempre serś e.xecutado ao menos urna vez. 
mesmo que n seja menor ou igual a 0. Considere, como exemplo. um progrania que mantóm tegistros do pessoal 
de urna empresa. Em certo ponto. o progrania estd lendo informaęóes sobre determinado cnipregado. Ele 18 n, o 
numero de filhos que o cnipregado tern e executu um laęo n vezes, urna vez para cada filho, e 16 o nonie. sexo e 
dala de aniversdrio da crianęa. de modo que a empresa possa lhe enviar um presenle de aniversario. que ć um dos 
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bcneficios adicionais oferecidos por ela. Sc o emprcgado nao liver filhos, ri serń 0, mas o laęo ainda sera cxecutu- 
do inais unia ve/ e cnviarii presentes, e dard resultado ineorrelo. 

A Figura 5.22(b) mostra urn outro modo dc executur o tesle, que funciona bcm mesmo para n mcnor ou igual 
a 0. Notę que o tesle ć diferentc nos dois casos, de modo quc, se unia unica instruęao ISA fi/er o incrcmento e lam- 
bćin o tesle, os projclislus sao foręados a escolher utn mćtodo ou o outro. 

Considerc o eddigo que dcveriu ser produzido para a declaraędo 

for (i = 0; i < n; M-+) ( stalements ) 

Se o compiludor nao liver nenhuma informaęao sobre n, terd de utili/.ar a abordagem da Figura 5.22(b) para 
tralar corretumente o caso de n s 0. Contudo. se o compiludor puder determinar que n > 0, por exemplo, verili- 
cundo onde n e utribuido. poderia usar o eddigo melhor da Figura S.22(a). O padrao FORTRAN antes aftrmava 
que todos os laęos deveriam ser executados urna vez, para permitir que o código mais eficiente da Figura 5.22(a) 
fosse gerado todus as vezcs. Esse defeito foi corrigido em 1977, quando atć mesmo a comunidade FORTRAN 
comeęou a percelicr que ter unia declaraęao de laęo coni semantica eseju i si ta que as vezes dava a resposta erruda 
nao eta urna boa ideia, ainda quc economizasse urna instruęao dc desvio por laęo. C e Java sempre li/erum isso 
corrctamente. 

5.5.7 Entrada/saida 

Nenhum outro grupo dc instruęńes cxibc tania varicdade dc mńquinu para inaqiiiiia quanto as instruęńes de 
ny.S. Md trSs esqucmas diferentes de E/S em uso eorrente em computadores pcssoais. Sao eles: 

1. H/S ptogramada com espera ocupada. 

2 . E/S por inlcrrujięan. 

3. H/S DMA. 
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Agora, discutiremos cudu urn deles. 

O metodo de E/S mais siiuples posstvcl e a E/S programudu. que e comumente osada cm microprocessado- 
res de baixa tecnologia, pot exemplo, em sistemas cmbulidos ou eiu sistemas quc tein dc responder rapidamente a 
uiudunęus extcmas (sistemas dc tempo real). Essas CPUs usualmente tein urna unica instruęao dc entruda e unia 
linica instruędo de salda, (uda urna das instruęńes selcciona urn dos dispositivos de E/S. lim unico caractcre e trans- 
ferido entre urn regislrudor fixo no processador e o dispositivo de E/S selecionado. O processador deve executar 
unia seqlieucia explicita de instruęńes para cuda um dos caracteres lidos ou escritos. 

CotAo esemplo siiuples desse metodo, considerc um terminal com quatro registradores de I byte, como mos- 
tra u Figura 5.23. Dois registradores sao usados paru entradu, um de estado c um dc dados c dois para satda, lam¬ 
bd m um para estado e um para dados. Cada um tern utn endereęo exdusivo. Se a E/S osada for do lipo tnapeada 
para a meinória. todos os quatro registradores sao parte do espaęo de endereęo da memória do computador c podein 
ser lidos e escritos usando instruęńes comuns. Caso contrario, sao fomecidas instruęńes cspcciais dc E/S, por exem- 
plo, IN e OUT, para ler c cscrevcr registradores. Em ambos os casos, E/S ć cxecutada jKir trunsfcrenciu de dados c 
informaęao de estado entre a CPU e esses registradores. 

O rcgistradoi dc estado do teclado tein 2 bits quc sao usados e 6 bits que nao siin usados. O bil du cxtrcinu 
cstjuerda (7) ć marcudo em I pelo hardware setnpre quc um caractere ehegar. Se o software liver ajustado anterior- 
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public stalle void output„bulter(char buli ], Int count) | 

II Produza um bloco de dados para o 
Int status do d!spositivo, I, ready; 
lor (i = 0; I < count; I++) { 
do { 

status = ln(dlsplay status_reg); II obtenha estado 

ready = (status » 7) & 0x01; // Isole bit ready 

)while (ready 1-1); 
outfdisplay bufter reg, buf[i]); 

) 

) 

mente o bit (i. e gerada unia intcrrupęao: caso contrńrio, nao ć gerada uma intcrrupęao (iniermpętVs seran discuti- 
das ern breve). Quando usa E/S programada para obter enlrada, a CPU normalnienie se encontra em um laęo restrito 
que 10 repetidas vezes o registrador de cslado do leclado & espera do bit 7 para entao contintiar. Quundo isso acon- 
tcce, o software 10 o registrador de bulTer do teclado para obter o caractere. Ao ler o registrador dc dados do tecla- 
do o registrador faz cotn que o bit CARACTERE DISPONlVEL (bit 7) seja reajustado para 0. 

A safda funciona dc modo similar. Para escrever um caractere na tela, o software primeiro 10 o registrador de 
estado do monitor para ver se o bit READY 0 I. Se n3o for. executa o laęo atć quc o bit v<t para I. o que indica quc 
o dispositivo estó pronto para aceitar um caractere. T8o logo o terminal esteja pronto. o software escreve um carac- 
tere para o registrador de buffer do monitor, o que faz com que ele seja transmitido para a tela, e tambćm que o 
disposilivo libere o bit READY no registrador de estado do monitor. Quando o caractere fot apresentado na tela 
e o terminal estiver pronto para tratar o próximo caractere, o bit READY ć automaticamenle ajustadopara I nova- 
mente peło controlador. 

Como um exeniplo de E/S programada, considere o procedimento Java da Figura 5.24. F.sse procedimento e 
chamado com dois paribnetros: um vetor de caracteres para safda e o numero de caracleres presenles no vetor, atć 
1 K. O corpo do procedimento 6 um laęo que envia caracteres para a safda um por vez. Para cuda caractere. primei¬ 
ro a CPU tern dc esperar atć que o dispositivo esteja pronto, e entao envia o caractere. Os procedimentos in e out 
seriam tfpicas rotinas de linguagem de montagem para ler e escrever os registradores do dispositivo cspecificados 
por um primeiro parAmetro, de ou para a varidvel espeeificada por um segundo parametro. A divisao por 128 se livra 
dos 7 bits de ordem baixa deixando o bit READY no bit 0. 

A desvantagem prittiordial da E/S programada ć que a CPU gasta grandę parte de seu tempo em um laęo restri¬ 
to esperando que o dispositivo ftquc pronto. F.ssa abordagem ć denominada espera ocupada Se a CPU nao liver nada 
mais a fazer (por cxcmplo, a CPU de uma mćquinn de lavar), a espera ocupada pode ser OK (entbora atć um simplcs 
controlador muilas vezes precise monitorar varios eventos concorrentcs). Todavia, se houver outro trabalho a fazer. 
como executar outros programas. a espera ocupada e um dcsperdfcio. portanto ć preciso um mćiodo de E/S difcrcnle. 

O modo dc se livrar da espera ociosa ć fazer com que a CPU inicie o dispositivo dc E/S e diga a ele para gerar 
uma interrupęilo quando concluir. A Figura 5.23 nos mostra como isso ć feito. Ajustando o bit INTERRUPęAO 
HABIUTADA em um registrador de dispositivo, o software pode requisitar quc o hardware Ihc dć um sinal quando 
a E/S for conclufda. Estudaremos inlerrupęóes detalhadamcnte mais adiantc neste cnpftulo quando chegarmos a 
controle de fluxo. 

Valc a pena mencionar que, em muitos computadores, o sinal dc intcrrupęao ć gerado por uma opemęao AND 
entre o bit INTERRUPęAO HABIUTADA e o bit READY. Sc o software primeiro habilitar inlerrupęóes (antes de ini- 
ciar E/S), uma inlerrupęao aeontecera imediatamente. porquc o bit READY serfi 1. Assini, pode ser necessdrio pri¬ 
meiro iniciar o dispositivo; ent3o, imediatamente após, habilitar interrupęóes. Escrever um byte para o registrador 
de estado nfto altera o bit READY. que ć só de leitura. 

Emhora E/S por inlerrupęao seja um grandę passo A frentc cm comparaęao com E/S programada, esla longe 
de ser perfeita O problenia ć que ć requerida uma intcrrupęao para todo caractere transmitido. Como proccssar uma 
interrupęao ć caro. precisamos dc um mcio dc nos livrar da maioria das inlerrupęóes. 

A soluę3o estń cm voltar a E/S programada, mas eontralar outra pessoa para faz6-la. (A soluęSo para muitos 
problemas ć ter algućm para fazer o servięo.) A Figura 5.25 mostra como isso ć feito. Aqui, aerescentamos ao sis- 
tema um novo chip. um controlador DMA (DIrect Memory Access — Acesso Dlreto A Memória). com acesso 
direto ao barramento. 

O chip DMA contćm, no mfnimo. quatro registradores, e todos podem ser carregados por software exeeutado 
na CPU. O primeiro contćm o endereęo de metnória a ser lido ou escrito. O segundo contćm a quantidade dc bytes 
— ou palavras — a ser transferida. O terceiro especifica o numero do dispositivo ou espaęo de endereęo de E/S a 
ulilizar. espeeifieando, assim. qual e o disposilivo E/S desejado. O quarto infonna se dados des em ser lidos ou escri- 
tos para o dispositivo de E/S. 

Para escrever um bloco de 32 bytes do endereęo de memória 100 para um terminal — por exemplo, dispo- 
sitivo 4 —. a CPU cscreve os niimeros 32, 100 e 4 nos tres primeiros registradores DMA e entao o código para 
WRITE — por exemplo, I — no quarto, como mostra a Figura 5.25. Uma vez inicializado desse modo, o contro¬ 
lador DMA faz uma requisięao ao barramento para ler o byle 100 da memória, do mesmo modo que a CPU leria 
da memória. Após ter obtido esse byle, o controlador DMA faz uma requisięao E/S ao dispositivo 4 para escrever 
o byte para ele. Após a conclusao de ambas as operaęóes, o controlador DMA inerententa seu registrador de endere- 
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ęo de I e decremcnta seu registrador de eonlagem de I. Se a coniagem do registrador uinda for niuior do i|ue 0, 
uiu ouiro byle e lido da memória e eiu3o escrilo pani o dispositivo. 

Quundo a coniagem por firn chega a 0, o conlrolador DMA paru de transferir dados e aliva a linha de inlcrrup- 
ę3o no chip da CPU. Com DMA, a CPU lem de inicializar apenas alguns rcgistradores. Logo após, ela estń livre 
para fazer qualqucr ouiru coisa ale que a trunsferćncia complela seja concluida. quando enlflo obtćm uma inlerrup- 
ęao do conlrolador DMA. Alguns controladores DMA tent dois, trćs ou mais conjuntog de rcgistradores, portanto 
podeń i controlar vdrias iranslertłncias simullflneas. 

l-.mboru o DMA alivic muilo u CPU da carga de li/S, o processn nao e totalmente livre. Se um dispusitivo tle 
altu velocidade. como mu disco, estiver sendo cxeeutado por DMA, scrSo necessdrios muitos ciclos de barranienlo, 
lamo para reterencias a memória quanio para referencias a dispositivos. Durante esses ciclos u CPU tera de espcrar 
(a prioridade do DMA no bamimenio ć sempre inaior do que a da CPU porque, em geral, dispositivos de E/S nio 
pudem loletur atiasos). O processo de um conlrolador DMA lirar ciclos da CPU 6 denominado rouho de ciclu. 
Ainda assim, o gunho por nao ter de iratar uma inlemipęao por byte — ou palavra iransferido compensa em 
muito a perda devida ao roubb de ciclo. 
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s b B Instruęóes do Pentium 4 

Nesia scęao e nas duas seguintes, esludarcmos os conjuntos de insiruęóes de nossus tres ntaquinas de excm- 
plo: o Peniium 4. a UltraSPARC e o 8051. Cada um deles lem um niicleo de insiruęóes uormalmente geradas por 
compiladores. mais um conjunto de instruęóes que nmimcnie s8o usadas ou sfio usadas somente pelo sislema ope 
racional. Em nossa discussao, foculi/urcmos as instruęóes coinuns. Vumos comeęar com o Pentium 4. 

O conjunto tle instruęóes do Peniium 4 ć unia mistura de instruęóes que fuzem senlidu em modo 32 bils e ins- 
iruęóes que rcuumtuni a sua vida unierior como uin K08K. Na l-iguru 5.26 mostrumos uma pcquena seleęau das ins- 
iruęócs dc inteiros mais comuns que os compiladores c progrumudores provavelmenle usarilo nos dius de hoje. Essu 
lisia esld longc de ser complela, porquc nao inclui instruęóes de ponlo Humanie, instruęóes de controle e nem 
uiesniu algumas das instruęóes de inteiros mais exóticas, coino usar um byte de 8 bits em AL paru reali/ur constil- 
ta de tabela. Nao obstanie, dii uma boa ideia do que o Pentium 4 pode fazer. 

MuAas das instruęóes do Peniium 4 referenciam um ou dois operandos, seja em rcgistradores, seja na memó¬ 
ria. Por excmplo, a instruęao ADD, de dois operandos, soina a fonie com o deslino, e a instruęao de um operando, 
INC. incremeala (suma I a) seu operando. Algumas das instruęóes tfim diversas variantes que guardam estreita rela- 
ędti com elus. Por cxcmplo, as instruęóes de deslocamenio podem desloear para a dircita ou para u cstpicrda e pudem 
dar uu nao tratamento cspecial ao bit de sinal. Grandę parte das insiruęóes tem uma vanedudc de diferentes codifi- 
caęóes, tlcpendendo da natureza dos operandos. 

Na Figura 5.26, os campos SRC sao fontes de informuęao e nao s3o alterados. Por comparaęao, os carnpos OST 
sao destinos e nounalmente sao modilicatlos pela inslruęao. Hś algumas regras sobre o que ć pennilitlo u uma 
fonie ou u um deslino que variam erraticamenle de inslruęao para instruęao, mas n3o enlrurcmos nesse assunto 
aqui. Muiias insiruęóes lem irćs variantes, para operandos de 8, 16 e 32 bils, respectivnnicnlc. Elas s3o distingui- 
das por opcodes diferentes e/ou por um bil na instruęao. A lista da Figura 5.26 d3 enfa.se as instruęóes de 32 bils. 

Por convenićncia, dividimos as instruęóes cm vtirios grupos. O primeiro grupo conlćnt insiruęóes quc 
muvem dados pelu mHijuina, entre rcgistradores, a memória e a pilha. O segundo grupo efetua aritmćtica, com 
sinal e sem sinal Para mulliplicaęao c divisao, o produto ou dividcndo de 64 bits i urmazenado em EAX (parte 
de ordem baixaj e EDX (parte de ordem alla). 

O terceiro grupo efetua aritmćlica decimai em código bimirio (UCD Binary Cotled Dcciinal) tratumlo 
cada byle como dois nibbles de 4 bils. Cada nibble coniem um dfgilo decimai (0 a 9). N3o s3o usadas as coin- 
binuęócs dc bils 1010 u III I. Assim, um inteiro de 16 bils pode conter um niimero decimai de 0 a 9999. Einbora 
ineiicienic, essa lorma de armaz.enamenio elimina a necessidade de convcrtcr entrada decimai para binaria e 
depois coiwertć-lu novamentc para decimai para sufda. Essas instruęóes s3o usadas para efetuar aritmćtica nos 
mimeros BCD. Sao muito usadas em programas COBOL. 
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Figura 5.26 
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As inslmęócs booleanas e de deslocamento/rolaęio manipiilam os bils em unia palavra ou byle dc vs'mas 
maneiras. Viirias combi naęóes siło fomecidas. 

Os dois gnipos seguintes di/em respeito a leste e comparaędo e entao a sallos eom base nos resullados. Os 
rcsullados dc instruęoes dc leste c comparaędo siło ormazenados em vdrios bits do registrador EFLAGS. Jxx rcpre- 
senta um conjunto de iuslruęfles que salta condicionalmcntc, dependeudo dos resullados das comparaęOcs onterio- 
rcs. isto ć, dos bits em EFLAGS. 

O Pentium 4 tern vdrias inslruętles para carrcgar, armazenar, movcr. comparar e cxaminar cadcias dc caracte- 
res ou palavras. Essas instruęoes podem ter um byle de prefixo especial denominado REP. que faz com quc elas 
sejam repetidas ate que unia certa condiędo seja cumprida. como ECX. quc e dccreinenlada após cada iternędo. alć 
chcgar a 0. Dcssc modo, blocos arbitrarios de dados podem ser niovidos. comparados e assim por dianie. O grupo 
seguinte gerencia os códigos de condiędo. 

O liltimo grupo ć um apanhado de instruęóes que udo se encaixam em nenhum outro grupo. Indui conversOes, 
gerenciamcnto de quadro de pilha, parar a CPU c E/S. 

O Pentium 4 tein vdrios prefixos. dentre os quais j,1 mencionanios um — REP Cada um desses prefixos ć um 
bytc especial que pode proceder a maioria das instruęócs. andlogo a WIDE cm UVM. REP la/ com que a inslruędo 
quc vem depois dele seja repelida alć ECX chcgar a 0, como jd mencionanios. REPZ e REPNZ esecutam repetidas 
vezes a inslruędo seguinte ate o código de condiędo Z ser marcado, ou ndo marcado. respectivamenle. LOCK reser- 
va o barramento para toda a instroędo, para permilir sincronizaędo de multiprocessador. Outros prefixos sdo tisados 
para obrigar urna inslruędo a operar cm modo de 16 bits ou em modo de 32 bits, o que ndo somente muda o com- 
primento dos operandos, mas lambem redellne completamente os modos dc endereęamcnto. Por firn, o Pentium 4 
tern um csqucma dc scgmcntaędo complexo, com código, dados, pilha e segmenios extras, um remanescente do 
8088. Sao fornecidos prefixos para obrigar as rcfcrencias a memória a usar segmenios cspccfficos. mas ndo nos 
prcocupiircmos com eles (feli/menie). 











5.5.9 Instruęóes da UltraSPARC III 

Todas as instruęóes de inteiros de modo usuario da UltraSPARC que urn compilador poderia gerar esiao rclu- 
cionadas na Figura 5.27. Niio damos aqui instruęóes dc ponło llutuante, nem instruęóes dc eontrolc (por cxemplo, 
gerenciamento de cache, restauraęSo de sistema), instruęóes que envolveni espaęos de endereęos, exeeto os de usua¬ 
rio, nem instruęóes obsoletas. O conjunto ć surpreendentementc pequeno: a UltraSPARC Ul ć realmente urn coin- 
putador eom conjunto icduzido de instruęóes. 

As instruęóes LOAD e STORĘ sao diretas, com versóes para 1, 2,4 e 8 bytes. Quando urn mimero eom menos 
de 64 bits e carregado em um registrador (64 bils), o mimero poder ser estendido era sinal ou estendido em zeros. 
Existem instruęóes para as duas opęóes. 

O próximo grupo e para aritmetica. As instruęóes que tem CC em seu nome ajustam os bils de eódigo de con¬ 
dięao NZVC. As oulras nao. Em mdquinas CISC, grandę parte das instruęóes ajusta os códigos de condięao, mas 
em urna maquina RISC isso e indesejavel porque reslringc u liberdade de o compilador mover instruęóes para la e 
para cd quando tentar preeneher espaęos vazios. Se u ordem original de instruęóes for A ... B ... C, sendo que A ajus- 
ta os códigos de condięao e B tesla os códigos, o compilador nao pode inserir C enlre A e B se C ajustar os códi¬ 
gos de condięao. Poi essa ruzao sao fomecidas duas versóes de muilas instruęóes, sendo que o compilador nnrmul- 
mente usa u que nao ajusta os códigos de condięao, a menos que esteja em seus planos testd-las ntais tanie. 
Multiplicaęao, divisao com sinal e divisao sem sinal sao todas suportadas. 

3 O forrnato aritmetico com tag (rotulado) e um fonnato especial uuto-identificado de nómeros de 30 bits. Ele 

pode ser usado por linguagens como Smalltalk e Prolog, nas quais as vandveis nao s3o tipificadas em tempo de 
compilaęao e podeń< mudur de Lipo em tempo de execuęao. Com mimeros rotulados o compilador pode gerar unia 


arias 

r. Os 

-Pre- 

erio- 


acie- 


Cafflaa 


LDS8 ADDR.DST 

Carroguo byle com elnal (8 bits) 

l. OIJB ADDR DST 

Carregue było sem sinal (8 bite) 

1 OSH ADDR,DST 

Carregue meia-palavra com sinal 
(16 bils) 


LDUH ADDR.DST 

Carregue mela-palavra sem sinal (16) 

LDSW ADDR.DST 

Carregue palaura com sinal (32 bils) 

LDUW ADDR.DST 

Carregue palavra sem sinal (32 bila) 

1 DX ADDR.DST 

Cairegue uslundida (64 bils) 


Armazenamenlos 


STB SRC, ADDR 
STU SRC ADDR 

Arma/ene była (8 bils) 

Armazene mola-palavia (16 bils) 


STW SRC. ADDR 

Armazene paluvra (32 bils) 


STX SRC,ADDR 

Armazene estendida (64 bils) 



Doolwaiidb 


ANDR1.S2.DST 

Efetuu AND booleana 

ANDCC ‘ 

Elelua AND booleana a a|uste icc 

ANDN 

Elanie NAND booleana 

ANDNCC " 

Eletue NAND booleana a ajusle icc 

ORR1.S2.DST 

Eletue OR booleana 

ORCC 

Eletue OR booloana e ajusle icc 

ORN 

Eloluu NOR booleana 

ORNCC " 

Eletue NOR booleana e ajusle icc 

XOR R1.S2.DST 

Eletue XOR booleana 

XORCC " 

Eletue XOR booleana e ajusle Icc 

XNOR 

Eletue EXCLUSIVE NOR booleana 

XNORCC * 

Eletue EXCLUSIVE NOR 
booleana e aiusle icc 


Ftuura b 27 

Instmęóes de 
inteiros da 
UltraSPARC 111 
primaria 


Anlmńllcas 


ADO Rt S2.DST 

Some 

ADDCC ' 

Some e ajusle Icc 

ADDC 

Sorne com vai-um 

ADDCCC • 
SUBRI.SZ.DST 

Some com val-um e ajusta icc 

Subtraia 

SUBCC ' 

Subtraia e ajusle icc 

SUBC 

Subtraia com vai-um 

SUBCCC - 

Subtraia com vai-um e ajusle icc 

MULX R1 .S2.DST 

Mulbplique 

SDIVX R1.S2.DST 

Dlvlda com sinal 

UDIVX R1.S2.DST 

Divida sem sinal 

TADCC R1.S2.DST 1 

Some rotulado 


Translerśncra de controle 


BPcc ADDR 

Desvie oorn prevlsSo 

BPr SRC.ADDR 

Desvie nu registrador 

CALL ADDR 

Chama piocedlrnentu 

RETURN ADDR 

Rolorne de procodimnnlo 

JMPL ADDR.DST 

Salte e conecle 

SAVE ni.S2.DST 

Adiante janelas do registrador 

RESTORE • 

Reslaure |anelas do registrador 

TccCC.TRAP# 

PREFETCH FCN 

Enceęao na condięSo 

Faęa busca anteclpada de dados 
da memória 

LDSTUB ADDR.R 

Carregua/armazene alómica 

MEMBAR MASK 

Barreira de memória 


|SLL R1.S2.DST 

Dasloque logicamente para 
a esquerda (32 bils) 

|SILX R1.S2 DST 

Desloque logicamente para 
a esquerda estendida (64) 

'SRLR1.S2.DST 

Desloqua logicamente para 
a direlta (32 bits) 

SRI X R1.S2.DST 

Desloque logicamente para 
a diroita estendida (64) 

SRA R1.S2.DST 

Desk>que aritmetica para 
a direita(32 bits) 

SRAXR1 S2.DST 

Desloque aritmótica para 
a direlta estendida (64) 


SETHI CON.DST 

Ajuste bils 10 a 31 

MOVcc CC.S2.DST 

Mova de condięao 

MOVr R1.S2.DST 

Mova de registrador 

NOP 

Nenhuma operaęao 

POPCS1.DST 

Conlagem da populaęóo 

RDCCR V,DST 

Leia registrador de eódigo 
de condięao 

WRCCR R1,S2.V 

Escreua registrador de eódigo 
de condięao 

RDPC V,DST 

Leia contador de programa 


:om- 
im 4 
e do 
nos 


SRC = rogistradorfonte 
DST - registrador de dasllno 
HI * reglslrador-lonte 
S2 - lania: registrador ou Imedialo 
ADDR - enderoęo de memória 


TRAP# - mimero de exceęAo 
FCN = eódigo de funęao 
MASK - lipo de operaęSo 
CON • con&lanle 
V » designador de registrador 


CC - eódigo de condięao ajustado 
R - registrador destlno 
cc = condięóo 
r ^ L2,LEZ.Z.NZ,GZ,GEZ 
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Tniioia 5.9 Algumas instruęoes UltraSPARC 111 simuladas. 


Instruęao 


M0V SRC.DST 

0R SRC com GO e annazene o resultado DST 

CMP SRC1.SRC 

SUBCC SRC2 de SRC1 e armazene o resultado em GO 

TST SRC 

0RCC SRC com GO e annazene o resultado em GO 

NOT DST 

XN0R DST com GO 

NEG DST 

SUB DST de GO e armazene em DST 

INC DST 

ADD l a DST (operando imediato) 

DEC DST 

SUB 1 de DST (operando imediato| 

CLR DST 

0R GO com GO e armazene em DST 

N0P 

SETHI GO a 0 

RET 

JMPL %I7+8,%G0 


instruęao ADD e a mdquina determina, em tempo de execuęao. sc ela preeisa de uma ADD de intciros ou de unia ADD 
de ponto duluante. 

O grupo deslocamento contćm um deslocamento para a esquerda e dois deslocamenlos para a direila, cada 
um com urna vers3o de 32 bits e uma versilo estendida de 64 bits. Para SLL. todos os 64 bits sao deslocados, 
uma vez que isso ainda ć compatfvel com software antigo. Os deslocamenlos sito mais usados para manipula- 
ęao de bits. A maioria das mdquinas CISC tern um vasto numero de instruęoes de deslocamento e rotaęao. pra- 
licamente todas elas totalmente imiteis. Poucos escritores de compiladores passarito noites em claro chorando 
sua ausencia. 

O grupo de instruęoes booleanas e analogo ao grupo aritmetico. Inclui operaęćies AND. OR*. EXCLUSIVE 
OR, ANDN. ORN e XNORN. O valor das ultimas trSs e questionśvel, mas elas podem ser efetuadas em um ciclo 
e requerem quase nenhum hardware, cntSo foram mantidas. Ate projetistas de mdquinas RISC ds vezes sucum 
bcm r\ tentaęao. 

O próximo grupo dc instruęóes contćm os controlcs de transferSncia. BPcc representa um conjunto de instru- 
ęOes que desviam sob viirias condięóes e especificam na instruęao se o compilador acha quc o dcsvio serii tornado 
ou nao. BPr tesla um regislrador e desvia se a condięao for detectada. 

Ha dois modos de chamar procedimentos. A instruęao CALL usa o formatu 4 da Eigura 5.11 com um desloca¬ 
mento de palona de 30 bits em relaęao ao PC. Esse valor t? suficiente para alcanęar qualquei instruęao dentro de 2 
gigabytes em relaęao ao chamador em qualquer direęao. A instruęao CALL deposita o endereęo de retomo em R15. 
que se toma R31 após a chamada. 

O outro mmlo de chamar um procedimento e usar JMPL. que utiliza o formatu la ou Ib e permite que o ende¬ 
reęo de retomo seja colocado em qualquer registrador. Essa forma e util quando o endereęo-alvo 6 calculado duran- 
tc a cxecuę9o. 

SAVE e RESTORE manipulant a janela do registrador e o ponteiro de pilha. Ambos acionam uma requisięao de 
atcnęito (trup) quando a janela seguinte (anterior) nao esliver disponfveI. 

O ultimo grupo contćm algumas instruęoes diversas. SETHI e neccssiuia porque niio hit nenhum modo de colo- 
car um operando imediato de 32 bits em um registrador. A maneira de fa/er isso ć usar SETHI para ajuslar os bits 
10 ató 31 e cnt3o fazer com que a próxima instruęao fomeęa os bits restantes usamlo o formulo imediato. 

A instruę5o de contagem dc populaęSo e um mistćrio. Ela conta o mimem de bits 1 em uma pahn ra. Dizem 
por af que ela 6 boa para stmular explos0es de bombas e que o Los Alamos National Laboratory — conhecido por 
ser grandę perduldrio — tein opiniiio favordvel das maquinas que t6m essa instruęao. As liltinias tres instruęoes ser- 
vcm para ler e escrever registradores especiais. 

Viirias das instmęóes CISC familiares que estao faltando nessa lista podem ser simuladas com facilidade usan- 
do GO ou um operando constante (formato lb). Algumas delas sao dadas na Tabela 5.9. Elas sao reconhecidas pelo 
assembler da UltraSPARC III e freqiientemente sao geradas jior compiladores. Muitas delas usam o falo de GO ser 
ligada a 0 c de quc armazenamentos para ela nao tein efeito algum. 

5.5.10 Instruęoes do 8051 

O 8051 tern um conjunto de instruęoes simples. cuja primeira parte ć mostrada na Tabela 5.10. Cada linha dd 
o mnemflnico, uma breve deserięao e os modos de endereęamento aplicaveis para fonie ou destino, conforme apa- 
reęa sre ou dstfR na deserięao. Como era de esperar, hd uma variedade de instruęfles MOV para mover dados entre 
o ACC (acumulador). registradores e memória. Ha instruęoes para passar c retirar de uma pilha, a qual e apoutada 
por um registrador em memória dedicado acima do endereęo 256. Esse registrador. que e sempre extemo. lima vez 
que o 8051 tern somente 128 bytes de memória e o 8052, apenas 256 bytes. e sempre cndereęndo indiretamente por 


Tabela 5 io Conjunto de instmędes 8051, parte 1: 


D 


1 Instr. 

Descrięao 

Iacc 

Reg 

Dir 

H 

# I C I Bits I 

M0V 

Mova src para ACC 


X 

X 

X 

X 

M0V 

Mova src para registrador 

X 


X 


X 

M0V 

Mova src para memória 

X 

X 

X 

X 

X 

M0V 

Mova src para RAM indireta 

X 


X 


X 

M0V 

Mova eonstanie de 16 bits para DPTR 






M0VC 

Mova códrgo para deslocamento ACC em relaęao a DPTR 






M0VC 

Mova cóchgo para deslocamento ACC em relaęźo a PC 






M0VX 

Mova byte RAM externa para ACC 




X 


M0VX 

Mova byte RAM ext. de ACC @DPTR 






M0VX 

Mova para byte RAM ext. desde ACC 




X 


M0VX 

Mova para byte RAM ext. desde ACC ©DPTR 






PUSH 

Passe byte src para pilha 



X 



POP 

Rettre byte da pilha para dst 



X 



XCH 

Permute ACC e dst 

X 


X 

X 


XCHD 

Permute digito ACO de ordem baixa e dst 



X 



SWAP 

Troque> nlbbles de dst 

X 





ADD 

Some src com ACC 


X 

’ X 

X 

X 

ADDC 

Some src com ACC com vai-um 


X 

X 

X 

X 

SUBB 

Sublraia src de ACC com vem-um 


X 

X 

X 

X 

INC 

Incremenle dsi 

X 

X 

X 

X 


DEC 

Decremenle dst 

X 

X 

X 

X 


INC 

DPTR 






MUL 

Multiplique 






DIV 

Divida 






DA 

Ajuste dectmai dst 

X 





ANL 

AND sra com ACC 


X 

X 

X 

X 

ANL 

AND ACC com dst 



X 



ANL 

AND imedtato com dst 



X 



ORL 

OR src com ACC 


X 

X 

X 

X 

ORL 

OR ACC com dst 



X 



ORL 

OR imedtato com dst 



X 



XRL 

XOR src com ACC 


X 

X 

X 

X 

XRL 

XOR ACC com dst 



X 



XRL 

XOR imedtato com dst 



X 



CLR 

Libere dst 

X 





CPL 

Complemente dst 

X 





RL 

Rode dst para a esquerda 

X 





RLC 

Rode dst para a esąuerda ató vai-ura 

X 





RR 

Rotatb dst para a direita 

X 





RRC 

Rode dst para a dueita atś vai-um 

X 






meio do registrador DPTR de 16 hits. Alguntas instruęóes divcrsas para trocar partes de registradorc.s complctam o 
grupo de insiruęóe* de movimciUo. 
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O 8051 tera instruęoes aritinćticas simples para somar, subirair, multiplicar e dividir. sendo que essa ultima usa 
registradores fixos. Incrementar e decrementar tambćm sSo operaęiies possfveis e comumente usadas. lnstruęfies 
boolcanas e de rotaęao tanrhćm estlo presentes. 

O restante das instruęoes do 8051 ć mostrado na Tabela 5.11. Ncsse caso, temos as opcraęOes de bits. Por 
cxemplo, 

SETB 43 

ajusia o bit numeru 43 e nao afeta os outros bits no mesmo byte. Em seguida v8m as instruęOes que transferem con- 
trole, incluindo os saltos e as ehamadas de sub-rotina, mais dois saltos condicionais que comparam uma fonie a 
alguma coisa. e uma instruęao, DJNZ. usada para executar laęo. 


Tabela 5.11 

Conjunto de instruęoes do 8051, parte 2. 



| Instr. 

Descricao 1 A( 

JC1 Reg 1 Dir 1 @R 1 # 1 C 

[Bitsl 

CLR 

Libere bit 

X 

X 

SETB 

Ajuste bit 

X 

X 

CPL 

Complemente bit 

X 

X 

ANL 

AND sre com vai-um 


X 

ANL 

AND complemento de sre com vai-um 


X 

ORL 

0R sre com vai-um 


X 

ORL 

0R complemento de sre com vai-um 


X 

M0V 

Mova sre para vai-um 


X 

M0V 

Mova val-um para sre 


X 

JV 

Salte relatreo se vai-um marcado 



JNC 

Salte relathra se vai-um nSo marcado 



JB 

Salte relatlvo se bit diieto marcado 


X 

JNB 

Salte rei atlvo se bit direto nao marcado 


X 

JBC 

Salte relatlvo se bit direto marcado e vai-um liberado 


X 

ACAI1 

Chame sub-rotlna (endereęo de 11 bits) 



LCALL 

Charae sub-rotlna (endereęo de 16 bits) 



RET 

Retorne de sub-rotina 



RET1 

Retorne de biternipędo 



SJMP 

Salto relativo curto (endereęo de 8 bits| 



AJMP 

Salto relativo (endereęo de 11 bits) 



LJMP 

Salto relativo (endereęo de 16 bits) 



JMP 

Salto indlreto relativo para DPR+ACC 

- 


JZ 

Salte se ACC for zero 



JNZ 

Salte se ACC for ndo-zero 



CJNE 

Comp. sre com ACC, salte se diferente 

X X 


CJNE 

Comp. sre com imediato, salte se diferente 

X X 


DJNZ 

Decreraente dst e salte nSo-zero 



NOP 

Nenhuma operaęao 




5.5.11 Comparaęao de conjuntos de instruęoes 


Os trSs cxcmplos de conjuntos de instruęao s3o muito diferentes. O Pentium 4 e uma chissica maqnina CISC 
de dois cndereęos e 32 bits. com uma longa história, modos de endcreęamento peculiares e muito irrcgulares c mui- 
tas instruęoes que referenciam a memória. 

A UltraSPARC III 6 uma moderna RISC dc tres endereęos e 64 bits, com arquitelura carregue/armazene. pou- 
cos modos de endereęamenlo e urn conjunto de instruęóes compacto e eficiente. A arquitetura 8051 ć um minuscu- 
lo processador emhutido, projetado para caber em um tinico chip. 

Cada maquina 6 como ć por uma boa razao. O projeto do Pentium 4 foi determinado por Ires fatores principais: 


nausa 

uęóes 


s. Por 


t con- 
inle a 


1. Compalibilidadc. 

2 . Compalibilidadc. 

3 . Compalibilidadc. 

Duda u lecnologia atual, ningućm projetaria unia tnjquina tao irregular coni um nutnem tao pequeno dc regis- 
tradorcs, lodus difercntes. Lsso dificulta a escrita dc compiladores. A 1'alta dc registradores lambem obriga os cont- 
piladorcs u dcspcjar variaveis constantemente na mcmória e entao canegA-las novamenie, um negócio caro, mesmo 
com dois ou tres nfveis dc caclic. O 1'ato de o Pentium 4 ser tao rśpido. mesmo com as litniluęńes dessa ISA, ć um 
lestemunho da c|ualidadc dos cngenheiros da Intel. Mas, como vimos no Capitulo 4. a iinplcmentaęao e extrema- 
mentc complexa. 

A UltraSPARC 111 representa um projeto dc ISA de ultima geraęao. Ula tern uma ISA completa de 64 bits, com 
um barramenlo dc 128 bits. Tcm muitos registradores e um conjunto de instruęao tjue da enfase a operaęóes com 
tres registradores, e mais um pequeno grupo de instruęóes LOAD e STORĘ. Todas as instruęóes tfim o mesmo tama- 
nho, emhora o numeru de formalos lenha safdo um pouco de controle. Ainda assim, ela se presta a uma implemen¬ 
tacjo direta e eficientc. Grandę parte dos novos projelos tende a se parecer com a UltraSPARC III, mas com um 
numeru menor tle formalos de instruęao. 

O 81)51 tern um conjunto de instruęóes simples e razoavelmenie regular com um numeru relativamente baixo 
de instruęóes e poucos ntodos de endereęamento. Ele se distingue por ter qualro conjuntos dc registradores para pro- 
cessumcnto rjpido de inieriupęAo, um modo para acessnr registradores no espaęo de memória e instruęóes de mani 
pulaęAo de bit surpreendentemente poderosas. O matur motivo de sua fama ć que cle pode ser implemenlado com 
um numeru muito pequeno de Iransistores, o que possibilila eolocar um grandę luimero deles eiu uma matri/, e, por 
conseguinte, mantem muito baixo o custo por CPU. 


5.6 Fluxo de controle 

Fluxo de controle se refem A scqiićncia cm que as instruęóes sao cxcculadas dinamicamente, isto ć, durante u 
enecuę&o do programu. Em geral, na ausencia de desyios e chamadas de proceditnento, instruęóes executadas cm 
seqiiencia sao buscadas ein loculizaęóes consecutivas de memória. Chamadas de proceditnento causam alteraęau no 
lluxo de controle, iuteiTompendo o proceditnento quc esta sendo executado no momentu cm questao e iniciatulo o 
proceditnento chamado. Co-rotinas sao relacionadas com proceditnentos e causam alteraęóes scmelbantes no fluxo 
de controle. Elas sao tileis paru simular prncessos paralelos. Exceęóes e interrupęóes lainbćm causam alteraęiio no 
fluxu de controle quando ocorrcm condięóes especiais. Todos esses tópicos serao discutidos nas seęóes seguintes. 

5.6.1 Fluxo de controle sequencial e desvios 

A maioria das instruęóes nao altcra o fluxo de controle. Após uma instruęao ser exccutuda, u instruęao qtte vetn 
depois dela na memória ć buscada e cxecutada. Após cada insintęSo, o contador de progratna 6 aumentado pelo 
compritnenlo du instruęao. Se isso for ubservado por um iniervalo de tempo longo em cotnparaęao com o tempo 
mtfdio de instruęjo, o contador de programa e aproximadamente uma funęjo linear do tempo, aumentando com o 
comprimento tnedio da instruęAo por tempo tnćdio de instruęao. Em outras palavras, a ordern dinamica na qual o 
processador realmente executa as instruęóes ć a mesmu em que elas aparecetn na listagem do programa, como mos- 
tra a Figura 5.28(a). Se um programa contćm desvios, cssa relaęao simples entre a ordern na qual as instruęóes apti 
recent na memória e a ordern em que elas sao executadas ja nio valc mais. Quando h<1 desyios presentes, o conta¬ 
dor de programa dcixa de ser uma funęao monotónica crescente do tempo, como mostra u Figura 5.28(b). O 
resultado 6 que lica dificil visualizar a seqtiencia de execuęao de instruęóes com base na listagem ilo programu. 

(}uando os progratnadores tćm problemas para monitorar a seqtiencia na qual o processador executard as ins¬ 
truęóes, tendent a comcter erros. Essa observaęjo levou Dijkstra (1968a) a escrevcr a carta, cnntrovcrtida na oca 
siao, intiluladu “GO TO Statemcnl Considercd Harmful” (“Declaraęao GO TO considerada perigosa”), na qual 


;c 

li- 

u- 


Fiaura & 28 

Contador de 
programa como 
funęao de tempo 
(ajustada) |a| 
Sem iiesvios. (h) 
Com desyios 




Tempo 

(a) 


Tempo 

(*») 
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sugcria evitar deelaraęOes goto. Essa carta deu origem ii recoluęjlo da progtamaęiki estruturada. da qual um dos dog- 
mas i a suhstituięao de declaraęoes goto por formas de fluxo de controle mais estmturadas. como laęos while. fi 
elaro que csscs programas compilam ale programas de n(vel 2 que contflm muitos desvios. porque a implemcnta- 
V'8o de estruturas dc controle de allo nfvel, como while e outras, requer desvios para tcalos os lados. 

5.0.2 Procedimentos 

A tćcnica mais importante para estniturar programas e o procedimcnto. De certo ponto de vista. urna chamada 
de procedimcnto allera o fluxo de controle exatamcnte como um dcsvio mas. dirercnte dcste, quando conclui a exe- 
cuęSo dc sua tarefa, cla dcvolve o controle ii dcclaraęao ou instruęao quc vem após a chamada. 

Contudo. de oulro ponto de vista, um corpo de procedimcnto pode ser considcrado como algo que dcfine unia 
nova instruęSo cm um nfvcl mais alto. Desse ponto de vista, urna chamada de proccdimento pode ser considerada 
como urna tinica instruęao, ainda que o proccdimento possa ser hastante complicado. Para entender um fragmento 
de código que conlćm urna chamada de proccdimento, basta saber o que ele faz. c nHo amw o faz. 

Um tipo dc proccdimento particularmente interessante ć o proccdimento recursivo. isto 6. um procetlimenlo 
que chama a si mesmo, direta ttu indiretamente, por meio de urna cadeia dc outros procedimentos. Estudar proce- 
dinienlus recursivos dii urna boa idćia dc como siło implantadas as chamadas de procedimento e de quantas vari:i 
veis locais rcalmentc ha. Agora daremos um exemplo de procedimento rccursivo. 

O Torres dc Ilamii' ć um antigo problema que tem soluęflo simples que envolve recursao. Em um certo mos- 
teiro eni Hanńi, lid tres estacas de ouro. Ao redor da primeira havia urna sćrie de discos concentricos de ouro. cada 
um com um oriffcio no meio para a estaca. Cada disco tem um diametro ligeiramente menor <lo que o do disco que 
esta abaixo dele. A segunda e terceira estacas cstavatn vazias no infcio. Os monges desse mosteiro estao muito ocu 
pados transferindo todos os discos para a estaca 3, um disco por vcz, mas nunca um disco maior pode ficar por cima 
dc um menor. Diz a lenda que, quando eles terminassem. o mundo acabaria. Se vocć quiser faz.er urna cxperi6ncia 
prdtica. pode usar discos de plastico e um ntimero menor de discos mas. quando resoher o problema. nada atonie 
cerii. Pani conscguir o efeito do firn do mundo vocS prccisa ter 64 discos. e dc ouro. A Figura 5.29 mostra a confi- 
guraęiio inicial para n = 5 discos. 

A soluęao para ntover n discos da estaca I para a estaca 3 consistc, cm primeira lugar. em mover n I dis¬ 
cos da estaca I para a estaca 2, c entao mover I disco da estaca I para a estaca 3. em seguida mover n - 1 discos 
da estaca 2 para a estaca 3. Essa soluęao ć ilustrada na Figura 5.30. 

Piira rcsolver o problema preeisamos de um procedimcnto para mover ii discos da estaca / para a estaca j. 
Quando csse proccdimento i chamado, por 
towers(n, I, j) 

a soluęao ć impressa. Em primeira lugar, o procedimento fitz. um tesle para ver se n = I. Se for. a soluęao 6 simples 
— basta movcr um disco dc i para j. Se n # l. a soluętko consiste em trgs partes, como jś discutimos, sendo cada 
uma dclas urna chamada de procedimento recursivo. 

A soluędo completa e mostrada na Figura 5.31. A chamada 
towers(3. 1,3) 

para resolver o problema da Figura 5.31 gera mais trSs chamadas. Espccificamente. faz as chamadas 
towers(2, 1, 2) 
towersd, t, 3) 
towers(2, 2, 3) 

A primeira c a terceira gerarao tr?s chamadas cada. para um total de sete. 

Para ter procedimentos recursivos preeisamos de uma pilha para armazenar os parilmetros e variaveis locais para 
cada iiWKraęAo, o mesmo que tfnhamos cm IJVM. Cada vez quc um procedimento ć chamado. um novo quadro dc 
pilha ć alocado para o procedimento que esta no topo da pilha. O quadro criado mais recentemente ć o quadro cor 
renie, lun nossos excmplos. a pilha crescc para cima. dos cndcrcęos dc ntemdria haixos |iara os endcrcęos altos, exa- 
tamentc como cm IJVM. Portanto, o quadro mais reccnte tem cndereęos mais altos do que todos os outros. 

AKm do pontciro de pilha, que aponta para o topo da pilha. muitas vcz.cs conveniente ter um ponteiro dc 
quadro (FP franie pointer), quc aponta para uma localizaęflo fixa dcnlro do quadro. Poderia apontar para o pon 
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fiuura 5.31 

Procediinento pora 
resolver o problema 
Torres de lianói 


public vold lowers(int n, mt I, int |) { 
int k; 

lf(n = 1) 

System.oul.prinlln("Mova um disco de“ + i + " to “ + j); 
else { 

k = 6 I-);. 
towers(n -1,1, k); 
lowers(1, i, j); 
towers(n - 1, k. j); 

} 


teiro de ligano, coiuo ein IJVM, ou para a primeira variavcl loeal. A Figura 5.32 moslra o quadro dc pilha para uina 
indquina com urna palavra dc 32 bits. A chamada original para lowers passa n, i e j para a pilha c entSo executa unta 
instruęao CALL quc passa o endereęo de retomo para a pilha, no endereęo 1012. Na cntrada, o procediinento arma- 
zena o antigo valor de FP na pilha cm 1016 e cntao adianta o ponteiro de pilha para alocar annazenamcnto para as 
variaveis locais. Cum upenas unia variavel local dc 32 bits {k), SP e incremenlado de 4 para 1020. A situaęao, dcpois 
quc todas essas coisas forarn feitas, e mostrada na Figura 5.32(a). 

A primeira coisa que um procedimento deve fazer quando chamado e salvar o FP aulcrior (de modo que possa 
ser rcstaurado nu safda do procedimento), copiar SP para FP e possivelmenlc incrementś-lo por unia palavra, depen 
dcndo do lugar para mule, no novo quadro, o FP apontar. Nesse exentplo, o FP uponia para a primeira varidvel local, 
portal, ein IJVM, LV apontava para um ponteiro de Uguęfio. Maquinas diferenles manuscinm o ponteiro de quudro 
de modos ligeiramcnle dilerentes, ds ve/.es colocundo-o na parte inferior do quadro de pilha, hs vezes no topo e hs 
vezes no meio, como na Figura 5.32. Quan(o a esse aspeclo, vale u pena comparar u Figura 5.32 com a Figura 4.10 
paru vcr dois modos dilerentes de gerenciar o ponteiro de ligaęao. Outros modos tambent sao possfveis. Hm lodos 
os casos, a chave e a capacidade de, mais tarde, puder fazer um procedimento relornar e restaurar o estado da pilha 
ao que era exatamcnte anies da invocaęao do procedimento corrente. 
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O código que salva o ponteiro de quadro anligo, ajusta o novo ponteiro de quadro e adianta o ponteiro de pilha 
para reservar espaęo para varidveis locais 6 dcnominado prologu de procedimenlo. A salda do procedimcnto. a 
pilha tem de ser liinpa novamente, o que e denoniinado epflogo de procedimento. Uma das caracterfslicas mais 
iinportantes de qualquer computador d o tamanho e a rapidez do prólogo e do epflogo de sens procedimentos. Se 
eles forem longos e lentos, as chamadas de procedimento serao caras. Programadores quc rezam pelo catecismo da 
cftciencia aprenderao a evitar escrever muilos procedimentos curtos e. em vez disso. escrever programas grandes. 
monolfticos e nao estruturados. As inslruęóes ENTER e CEAVE do Pentium 4 foram projetadas para executar com 
eficiSncia grandę parte do trabalho de prólogo e epflogo do procedimento. fi claro quc elas tern urn tnodelo parti- 
cular para o modo dc gcrcndamenlo do ponteiro de quadro e. se o compilador tivcr urn modelo diferentc. elas nao 
podent ser usadas. 

Agora. vamos voltar ao problcma Torres de Ilanói. Cada chamada de procedimento adiciona urn novo quadro 
h pilha e cada retorno dc procedimento retira um quadro da pilha. Para ilustrar o uso de uma pilha na implementa- 
ędo de procedimentos recursivos, rastrearemos as chamadas comeęando com 
towers(3, 1,3) 

A Figura 5.32(a) mostra a pilha logo após essa chamada ter sido feita. Em priineiro lugar. o procedimento testa 
para ver se n = 1 c, ao dcscobrir que n = 3. preenche k e faz a chamada 
towers(2, 1, 2) 

Após essa chamada ser conclufda. a pilha eslit como mostra a Figura 5.32(b) e o procedimenlo comeęa nova- 
nienle no infcio (um procedimento chamado sempre comeęa no infcio). Desta vcz. o tesle para ii = I falha nova- 
mente, portanto ele preenche k mais uma vez e faz a chamada 
towers(1, 1, 3) 

A pilha. portanto, estd como mostra a Figura 5.32(c) e o contador de programa aponta para o infcio do proce¬ 
dimento. Desta vez o teste 6 betn-sucedido e uma linha d impressa. Em seguida, o procedimento tetoma retirando 
um quadro de pilha. reajustando FP e SP para a Figura 5.32(d). Entao continua execulando no endereęo de retorno. 
que e a segunda chamada: 
towers(1. 1.2) 

Isso acrcscenta um novo quadro il pilha como mostra a Figura 5.32(e). UrnS outra linha d impressa; após o 
retorno um quadro d relirado da pilha. As chamadas de procedimento continuum desse modo ate a chamada origi 
nal concluir a cxecuęao e o quadro da Figura 5.32(a) ser removido da pilha. Para entender melhor como a recursao 
funciona, recomendamos quc vocS simule a execuęao completa de 
towers(3, 1, 3) 
usando Idpis e pnpel. 


5.6.3 Co-rotinas 

Na scqiiencia de chamada usual, hd uma clara distinędo entre o procedimento que chama c o procedimento que 
d chamado. Considere um procedimento A, que chama um procedimento B na Figura 5.33. 

O procedimento B executa durante algum tempo e entao volta a A. A primeira visla voce poderia considerar 
essa situaędo simćtrica, porque nem A nem B e um programa principal. porquc atnbos sao procedimentos. 
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(Procedimento A pode ter sid«> chamado pclo programu principal, mas isso ć irrelevante.) Alem do mais, ein primei- 
ro lugar o controle e trunsferido dc A para B a chamada — e mais tardc o conlrole 6 transferido de B para A 
o rclomo. 

A assimetriu stirge do falo de que, quando o controle passa de A para B, o procedimento B corneęa u execular 
no inicio; quundo B ret orna pura A. a execuęOo nao corneęa no inicio de A, mus na decluruędo logo após a chama- 
da. Sc A executar durante urn certo tempo e chamar B novamenle, u execuęao corneęa no inicio dc B novamente. e 
n&o nu declaraęfio logo após o retorno anterior. Se, no curso da execuę3o, A chamar B iiiuilus vezes, B corneęa no 
inicio mais unia vez e lodas us vczes, ao passo que A nunca reinicia. 

Essa dilerenęa i relletida no inćtodo pelo qual o‘controle e passado entre A e B. Quando A chama B, usa 
u instruęao de chamada de procedimento, que coloca o endereęo de retorno — islo ć, o endcreęo da declaraęao 
scguinte a chamada — em algum lugar litil. por excmplo, no topo da pilha. Em seguida coloca o endereęo de B 
no coniudor de programu pura concluir a chamada. Quando B retorna, nao usa a instruęao de chamudu, e sim a 
instruęao de retorno, que simplesmenle retira o endereęo de retorno da pilha e o coloca dentro do contador de 
próg rama. 

As vezes 6 dlii ter dois procedimentos, Ac B, eada urn dos quais chama o outro como um procedimento, como 
mostru a Figura 5.34. Quando B retorna a A, desvia para a declaraęao scguinte & chamada u B, como citado anie¬ 
li ormente. Quundo A transfere controle para B, nao vai atć o inicio (exceto nu primeira vez), mas atć a declaraęao 
seguirite a mais recente ‘return', isto e, h mais recente chumudu de A. Dois procedimentos quc funcionam dcssa 
mancira sao denominados co-rotinas. 

Unia utilizaęSo comum de co-rotinas e simular processamento paralelo cm urna unica CPU. Cada co-mtinu 
cxecuta cm pseudoparalelisino coni us oulras, como se elu tives.se sua própria CPU. Esse cstilo de programaęiio 
lucilitu u progrumuędo dc algumas aplicaęfles. Thmbćm 6 titil para teslar software que mais tardc cxecutard em um 
multiprocessudor. 

Nem a instruęao CALL usual nem a instruęao RETURN usual funciona para chamar co-rotinas, porquc o 
endereęo paru otulę desviar vem da pilha como um retorno mas, diferente de um retorno, a própria chamada 
de co-rotina coloca um endereęo de retorno em algum lugar pura o subscqiiente retorno a ele. Seria bom se 
liouvesse urna instruęao para permutar o topo da pilha eom o contador de programa. Em detulhc, essa instru- 
ęao primeiro retirariu o endereęo de retorno antigo da pilha para dentro dc um regislrador interno, em scgui- 
du passuria o contador de programu para a pilha e, por firn, copiaria o regislrador interno para o contador de 
programu. Como utną palavra e rctirada da pilha e unia paluvra 6 passadu para a pilha, o pontciro de pilha nao 
sc allera. Essa instruęao raruincnte existe, portanto da leni dc ser siinuladu, assim como vtirias instruęóes nu 
maioria dos casus. 
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5.6.4 Exceęóes 

Unia exceę9o (trap) ć um lipo dc chamada de procedimento autoinótica iniciada por alguma condięao causa- 
dn pelo programa. usualmente uma condięao importantc. mas que ocorre raranienlc. Um bom exemplo ć o excesso 
(overllow). Ern muitos computadores. se o resultado de uma opcraęao arilmetica for maior do que o inaior numero 
<iue pode ser reprcscnlado. ocorre uma exceę9o. o que significa que o fluxo de controle passa para alguma locali- 
zaęóo fixa dc memória em vez de conlinuar em scqiifincia. Nessa localizaęao fixa lid um dcsvio para uma chamada 
de procedimento denominada tratador de exceę9o que cxecuta alguma aę3o adequada. como imprimir uma men- 
sagem de erro. Se o resultado de uma opcraęao cstivcr dentro da faixa, nio ocorre a cxccęao. 

O ponto essencial de uma exccęóo ć que ela 6 iniciada por alguma condięSo excepcional causada pelo próprio 
programa e delectada pelo hardware ou inicroprograma. Um mćtodo allemativo de tratar um transhordo e ter um 
registrador de I bil que i marcado em 1 sempre que ocorrer um transhordo. Um programador que quiser verificar 
transhordo deve incluir uma instruęao explfcita "dcsvio sc o bit de transhordo estiver marcado" após cada insłruęio 
aritmćtica, o que ć lento e desperdięa espaęo. Exceęóes poupam tempo e memória em comparaęao com verificaę9o 
controlada pelo programador. 

A exceęao pode ser implementada por um teste explfcito realizado pelo microprograma (ou hardware). Se um 
transhordo for detectado. o endereęo da exceę9o e carregado no contador de programa. O que 6 uma exceęao em 
um nfvel pode estar sob controle do programa em um n(vel mais baixo. Quando o microprograma faz o teste. ainda 
ha econotnia de tempo em comparaęao com um teste de programador, porque e facil sobrepor o teste com alguma 
outra coisa. Tambem poupa memória, porque só precisa ocorrer em um lugar, por exemp!o, o laęo principal do 
microprograma, independenteniente da quantidade de instruęóes aritmóticas que ocorram no programa principal. 

Algumas das condięóes comuns que podem causar exceęóes sao transhordo de ponto flutuante. erro de ponto 
(luluante. transhordo de inteiros, proteęao contra violaę9o. opcode indefinido, transhordo de pilha. lentativa de ini 
ciar dispositivo de F/S inexistente, tcntativa de huscar uma pałam em endereęo de numero fmpar e divisao por zero. 

5.6.5 Interrupęóes 

Interrupęóes sao alteraęóes no fluxo de controle quc nao sao causadas pelo programa cm execuęao. mas por 
alguma outra coisa. em geral relacionada a E/S. Por exemplo, um programa pode instruir o disco a iniciar transfe- 
rSncia de informaęao e ajustar o disco para providenciar uma inlerrupęau tao logo a transferfincia esteja conclufda. 
Assini como a exceęilo, a interrupęao póra o programa em execuęao e transfere o controle para um tratador de inter- 
nipęao. que executa alguma aęao adequada. Quando lermina, o tratador de interrupęao devolve o controle ao pro- 
grama interrompido, que deve reiniciar o processo interrompido exatamente no mesnio estado em que eslava quan- 
do ocorreu a interrupęao, o que significa rcstaurar todos os registradores intemos a seu estado anterior a interrupęao. 

A diferenęa essencial entre exceęóes e interrupęóes e a seguintc: exceędes sao sfncronas com o programa e 
interrupęóes sao assfncmnas. Se o programa for executado um milhao de vezes com a mesma entrada, as exceęóes 
oconerao no mesmo lugar loda vez. mas as interrupęóes podem variar, dependendo. por exemplo, de quando, exa- 
tamente, quem esta no tenninal acionar retomo de linha. A raz3o para a reprodutibilidade de exceęóes e a irrepro- 
dutibilidade de interrupęóes 6 que cxceęóes sao causadas dirctamente pelo programa. e interrupęóes, no móximo. 
causadas indiretamente pelo programa. 



Para ver conui interrupęóes realnienie funcionam, vamos eonsidcrar um exemplo coinum: um compuiador 
quer enviar uma llnłia dc caracteres para um terminal. O software do sistema primciro rcóne todos os caracteres 
que devcm ser escritos para o terminal em um buffer, iniciuliza uma varióvel global ptr para apontar o infcio do 
buffer e ajusiu uma segunda vuridvet global count igual ao numero de caracteres a ser enviado. Entao vcrifica 
para ver sc o icrminal esta pronto. Sc estiver, o computador envia o primciro caractere (por cxemplo, usando 
rcgistradores como os da Figura 5.23). Após iniciar a E/S, a CPU estd livre para execulur um oulro programa ou 
fazer outra coisa. 

No scu dcvido tempo, o caractere e apresentado na tela. A interrupęao agora pode comeęar. De forma simpli- 
ficada, as etapas sdo as seguintes. 

Aęóes do hardware 

1. O conlrolador dc dispositivo ativa uma linha de interrupęao no barramenlo dc sistema para iniciar a 
scqiićnciu dc interrupęio. 

2 . Tło logo esteja preparada para trat ar u interrupęfio, u CPU ativa um sinal dc rcconhecimento de interrup¬ 
ęfio no barramento. 

3 . Quando o controlador de dispositivo vS que seu sinal de interrupęfio foi reconhecido, coloca um inteiro 
pcqueno nas linhas dc dudos para se identiltcar. Esse numero e denominado velor dc inlerrupęao. 

A CPU mtiru o vctor de intcmipęao do barramenlo e o salva temporariamente. 

a. Entao u CPU passa o contador dc programa c a PSW paru u pilha. 

8. lim seguida a CPU locali/a um novo contador de programa usando o vetor de inicmipęfio como um indi- 
ce para uma tabela na parte inferior da memóriu. Se o contador de programa for dc 4 bytes, por exemplo, 
entao o vetor de interrupęfio n corresponde ao endereęo 4n. Essc novo contador de programa aponla para 
o infcio da rotina dc servięo da inlerrupęao para o dispositivo que causou a interrupęfio. Muilas vezes u 
P)»W tumbćm ć carregada ou modificadu (por exemplo, para dcsabililar mais interrupęóes). 

Aęóes do software 

7. A primcira coisa quc a rotina dc servięo de inlerrupęao faz e salvur todos os rcgistradores que usa, de modo 
quc possani ser restaurudos mais tarde. Eles pudem ser salvos na pilha ou em uma tabela dc sistema. 

8 . Cuda vetor dc interrupęfio ó geralmcntc compartilhado por todos os dispositivos dc determinudo tipo, por- 
tauto aindu uao se sabc quul terminal causou u inlerrupęao. O numero do tenninul pode ser encontrado 
pela leilura dc algurn registrador de disposilivo. 

a. Agora pode ser lida qualqucr outra informaęfio sobre a inlerrupęao, tal como códigos de eslado. 

to. Sc ocorrer um erro de E/S, cle pode ser tratado nesse caso. 

11. As varidvets globais, ptr c count, sao alualizailds. A primcira ć inerementuda paru apontar para o próximo 
bytc, e a liltima e dccremenlada para indicar quc resta I byle a menos para ser envlado. Se count aindu for 
maior do que 0, ha mais caracteres a etwitir. Copia o caractere agora apontudo por ptr para o registrudor 
dc buffer ile saidu. 

12 . Sc rcquerido, e piodu/ido um código especiul paru inforinur ao dispositivo ou ao controlador dc interrup- 
ęao que u interrupęfio foi proccssada. 

13. Kestauru todos os rcgistradores salvos. 

14 . Exccuta a mstruęao RETURN FROM INTERRUPT devolvcndo u CPU ao modo e estado cm que ela estavu 
exalamentc untes de ucontecer a intcrrupęilo. Entao o computador continua de ondc cstava. 

Um conccito tundamcntal para interrupęóes ć transpurencia Quundo uma inlerrupęao acontcce, algumas 
aęóes siło realizadas c ulguns códigos, executudos, mas, quando tudo tenninar, o computador deve retornar exata- 
mentc ao tnesmo estado em que estava antes da interrupęao. Uma rotina de inlerrupęao que tem cssa propriedadc ć 
denominuda irunspurente. Quando todas as interrupęóes sfio trausparentes, e muito mais fdcil entende-las. 

Sc um computador livcr apenas um dispositivo de E/S, entdo as interrupęóes sctnpre funcionam como aeaba- 
mos de descrevcr c nada mais hd u dizer a respeito delas. Enlrctanto, um computador de grandę porte tern muilos 
dispositivos de E/S e vario.s dcles podetn estar cm exccuęao ao mesmo tempo, possivelmente atendendo a dilcren- 
tes usudrios. Exisle uma probabilidade nao-zero de que, enquanto uma rotina de interrupęao cstivcr executando, um 
segundo dispositivo de E/S ijucira gerar snu interrupęao. 

Duas abordagens pudem ser adotadas para essc problemu. Uma & que a primeira coisa que tiwlas as rolinas de 
interrupęao des cm fazer e dcsabililar interrupęóes subseqiientes, antes mesmo dc salvar os rcgistradores. Essa abor 
dugem simplitica as coisas porque, entdo, as interrupęóes sao processadas estritamente em seqiićncia, entbora isso 
possa gerar problcmus para dispositivos que nao possani lolerar muito atraso. Por exemplo, cm uma linłia de comu- 
nicaęao dc 9.600 bps, os caracteres chegam a cada 1.042 /is, estejamos prontos ou niio para cles. Se o primciro aindu 
ndo tiver sido processado quando o segundo cliegar, podcm-se perder dados. 

Quaudo um computador tein dispositivos dc E/S crfticos em relaęao ao tempo, uma abordagem mais promis- 
sora de projeto e designar uma prioridade a cada dispositivo de E/S, alta para dispositivos muito crfticos e baixa 
para dispositivos menos crfticos. De modo semclhanle, a CPU tambem devc ter prioridades, normalmente determi- 
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nadas por um campo na PSW. Quando um dispositivo de prioridade ii inlerrompe, a rolinn de interrupęao tambem 
deve executar eni prioridade n. 

Enquanto unia rotina de interrupęao de prioridade n estiver executando, qualqucr lentatita quc um dispositivo 
de prioridade niais baixa faęa para causar unia interrupęao ć ignorada ale que a rotina de interrupęao esteja concluf- 
da c a CPU volte a executar código de prioridade mais baka. Por outro lado, interrupęOcs dc dispositivos dc prio¬ 
ridade niais alta dcvem ter permiss5o dc acontecer seiti nenhuni alraso. 

Urna vcz que as próprias rotinas de interrupęao estSo sujcitas a interrupęao. a nielhor maneira de manier a 
administraę3o eni dia 6 garanlir que lodas as interrupęfies sejam transparentes. Vamos considerar um exeinplo sim- 
ples de v,1rias interrupęócs. Um computador tein tres disposilivos de E/S, unia impressora, um disco e uma linha 
RS232 (serial), com prioridades 2, 4 e 5, respectivainente. No infcio (/ = 0), um programa usufrio estó executando 
quando, de repente, em / = 10, ocorre uma interrupęao da impressora. A rotina de servięo de interrupęao (ISR) da 
impressora ć iniciada, como mostra a Figura 5.35. 

Em l= 15, a linha RS232 quer alenęao e gera uma intcmipęao. Uma vez que a linha RS232 tern prioridade niais 
alta (5) do que a impressora (2). a interrupęao acontcce. O estado da maquina, que agora esta esecutando a rotina de 
servięo de interrupęao da impressora, ć passado para a pilha, e a rotina de servięo de interrupęao de RS232 e iniciada. 

Um pouco mais tarde, em l = 20. o disco conclui e qucr servięo. Contudo. sua prioridade (4) 6 mais bnixa do 
quc a da rotina de inlemipęao que estś executando nessc momento (5), potlanto o hardware da CPU nSo reconhe- 
ce a interrupęao e ela ć mantida pendcnte. Em f = 25, a rotina de RS232 cstti conclufda, portanto ela volta ao esta¬ 
do em que estava um pouco antes de acontecer a inlemipęao RS232, ou seja, ao executar a rotina dc servięo de inter- 
ropęSo da impressora na prioridade 2. Tao logo a CPU muda para prioridade 2, antes mesmo que uma instruęSo 
possa ser excculada, a interrupęio de disco em prioridade 4 recebe penniss3o de entrar e a rotina de servięo do disco 
ć executada. Quando conclui, a rotina da impressora consegue continuar. Por firn, cm / = 40. todas as rotinas de ser- 
vięo de interrupęao j3 conclufrain e o programa usuario continua de onde parou. 

L)esde o 8088, os chips de CPU da Intel tem dois niveis de interrupęao (prioridades): mascaraveis e nao mas- 
caraveis. Interrupęoes nao mascaraveis em geral sń sao usadas para sinalizar quase-cat3stroles. lais como erros de 
paridade de memória. Todos os dispositivos de E/S usani uma interrupęao mascar3vcl. 

Quando um dispositivo de E/S emite uma interrupęao, a CPU usa o vetor de interrupęao para indexar uma 
tabela de 256 entradas para achar o endereęo da rotina de servięo de interrupęao. As entradas da tabela siło des- 
critores de segmentu dc 8 bytes c a tabela pode comeęar em qualqucr lugar da memória. Um registrador global 
apoula para scu infcio. 

Com um dnico nfvel de inlemipęao usiWel, nao hd modo de a CPU permitir que um dispositivo de alta priori- 
dadc interrompa uma rotina dc servięo de interrupęao de inćdia prioridade c, ao mesmo tempo, profba um disposi- 
livo de baixa prioridade de fazer o mesmo. Para resolvcr esse problema, as CPUs da Intel normalmente sdo usadas 
com um controlador de intcrrupęSo externo (por exemplo, um 8259A). Quando a primeira inlemipęilo chega, por 
exemplo, em prioridade n, a CPU d intemimpida. Se uma interrupęao subseqiiente chegar e tivcr unia prioridade 
mais alta. o controlador de intcmipęao interrompe uma segunda vez. Se a segunda interrupęao tiver prioridade mais 
baixa, ela e retida ate que a primeira tenha conclufdo. Para fazer esse esquema funcionar, o controlador de inlemip- 
ęao dcvc sabcr quando a rotina de servięo de intemipęao corrente esta conclufda, portanto a CPU dcve Ihe enviar 
um comando quaudo a interrupęao corrente estiver totalmenle processada. 

5.7 Um exemplo detalhado: as torres de Hanói 


Agora que jń estudamos a (SA dc tres mdquinas, vamos reunir lodas as pcęas e examinar detalhadamentc o 
mesmo exemplo de programa para as duas mńquinas maiorcs. Nosso exemplo 6 o programa das Torres de Hanói. 



Demos unia vcrsao cm Java ilcsse programu na Figura 5.31. Nas seęfies seguintes daremos programas em código 
de montagem para as Torres de Hanói. 

Contudo, faremos urna pequena trapaęa. Em vez dc dar a iruduęao du vers5o Juva, paru o Pentium 4 e a 
UltraSPARC III, daremos u traduęao dc urna vers3o cm C. para evilar ulguns problemus com I7S cm Javu. A tinica 
difcrcnyu e u substitui^ao da chumada Java paru prinlln pela declaruę&o padrtlo cm C 

printt(Mova um disco de %dJo %d\n i. j) 

Para nossu finulidade, a sintuxe das cadeias do formato prinif niio e importantc. Basiauncntc, a cadciu e 
impressa lileralmenle. cxccto quc ( M significa ‘impriirm o próximo intciro em decimai'. A tinica coisa que ć relc- 
vante nesse cuso ć que o proccdimcnto ć chamudo com trSs parameiros: urna cadcia de formatu c dois inteiros. 

A ru/ao para usar a vcrsao em C para o Pentium 4 e a UltraSPARC III e que a biblioteca Java de E/S niio estd 
disponivel em fonna nativa para essas maiptinas, ao passo que a biblioteca em C esia. A diferenęa e minima e afclu 
somentc a tinica declaraędu de imprimir. 


5.7.1 As Torres de Hanói em linguagem de montagem do Pentium 4 

A Figura 5.36 dii urna traduędo possivel da versfio em C das Torres dc Hanói para o Pentium 4. Em suu rnaio- 
ria a trudu^do e ru/oavclmente direta. O registrador EBP e usado como o ponteiro de quadro. As duas primeiras pala 
vras sdo usudus para ligano, de modo que o primeiro parametr o propriumente dito, n (ou N aqui. porque 6 indiferen 
te se MASM i escrila em maiusculas ou miniisculus), estd em EBP 4 8, seguido por t e j em EBP +12 e EBP +16. 
rcspectivamcnlc. A \uriavel local. k, estd em EBP + 20. 


Fluura 5 36 


Torres de Hanói para 
o Pentium 4. 


586 

MODEL FLAT 
PUBLIC lowers 
EXTERN printl NEAR 
COOE 

lowers PUSHEBP 

MOV EBP. ESP 
CMP |EBPr 8). 1 
JNE LI 

MOV EAX, IEBP+16I 
PUSH EAX 
MOV EAX, (EBP+12) 

PUSH EAX 

PUSH OFFSET FLAT Iormat 
CALL printl 
ADD ESP, 12 
JMP Done 

LI; MOV EAX, 6 

SUB EAX, [EBP+12] 

SUB EAX, [EBP+18] 

MOV [EBP+20], EAX 
PUSH EAX 
MOV EAX, [EBP+12| 

PUSH EAX 
MOV EAX, [EBP+8] 

DEC EAX 
PUSH EAX 
CALL Jowers 
ADD ESP. 12 
MOV EAX. (EBP* 16| 

PUSH EAX 
MOV EAX. IEBP+12] 

PUSH EAX 
PUSH 1 
CALL towers 
ADD ESP. 12 
MOV EAX, [EBP+12] 

PUSH EAX 
MOV EAX. [EBP+20] 

PUSH EAX 
MOV EAX, [EBP<8] 

DEC EAX 
PUSH EAX 
CALL towers 
ADD ESP, 12 
Done: LEAVE 

RETO 

DATA 


; compile para Pentium (ao contrśrio de 8088 etc.) 

; exporte lowers' 

: import printl 

: salvo EBP (ponteiro de quadro) e decremerite ESP 
: ajuste novo ponteiro de quadro aclma de ESP 
, se (n =» 1) 

; desvle se n n&o lor t 
i PdntfC •••". 1.1): 

; notę que parómetros I, j e a cadeia 

, de formato t>ao passados para a pllha 

; em ordem lnversa Essa e a convenęao de ctiamada em C 

; offset tlał significa o endereęo da tormalo 

, chama prinif 

, reure params da pllha 

, terminamos 

;iniclek-6 I -j 

; EAX = 6 i 

; EAX = 6 l-J 

; k = EAX 

; inicie towersfn 1.1, k) 

; EAX «I 
,passe i 
; EAX = n 
;EAX = n- 1 
,passe n-1 

; chama towers(n - 1.1,6 - I -1) 

; rellre params da pllha 
; inicie lowers(1,1, j) 

,passe j 
, EAX = i 


;passe 1 

; chama lowers(1,1, ]) 

; retlre params da pllha 
; inicie towers(n 1. 6 - i - J, i) 

,passe I 
. EAX » k 
.passe k 
; EAX a n 
;EAX = n- 1 
; passe n 1 

; chama towers(n 1.6-i-j.l) 
; ajusle ponteiro de pilha 
; prepare para sair 
. retorne ao chamador 


tormat DB 'Move disk from %d to %d\n" , cadeia de formato 
END 
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O procedimenlo comega cstabclecendo o novo qumlm no (Inni do ant i po. copiando ESP para o ponteiro de qua- 
dro. EBP. Hnlao dc contparu ri coni I, desviatido para a clausula clsc sc n > 1.0 código tlten passa trfis valores para 
a pilha: o endcreęo da cadeia de formatu, i e j. e chama a si mcsmo. 

Os parAmetros sAo passados cm ordem inversa. o que 6 requerido por programas ettt C. Isso ć necessflrio para 
colocar o ponteiro para a cadeia de formato no topo da pilha. Urna vcz que printf tem um niimero variśvel de parA- 
mctros. sc os parAmetros fossem passados em ordem direta. printf nAo saheria qual a pmfundidade da cadeia de for¬ 
mato na pilha. 

Após a chamada. 12 ć somado ao ESP para retiraros parAmetros da pilha. E claro que eles nao sao realnienie 
apagados da memória, mas o ajuste de ESP os toma inacessfvcis para operaęóes nonnais de pilha. 

A cliiusula else. que comcęa em LI. € direta. Em primeiro lugar ela calcula 6 i — j c armazena esse valor 
em k. NAo import a quais valores i e j tenham, a terceira estaca ć sempre 6 - i - j. Salvń-lo em k poupa o trnhalho 
de recalcular o valor uma segunda vez. 

Em seguida, o pmcediniento chama a si mcsmo tres vez.es. cada vez com parAmetros diferentes. Após a cha¬ 
mada. a pilha ć limpa. E isso e tudo. 

As vezcs os procedimentos rccursivos confundcm as pcssoas nt' princfpio mas. quando vistos nesse nfvel, eles 
sao diretos. Tudo o que aconlece ć que os parAmetros sAo passados para a pilha e o procedimento chama a si mesmo. 

5.7.2 As Torres de Hanói em linguagem de montagem da UltraSPARC III 

Agora vamos tentar novamente, só que, dcsta vez. para a UltraSPARC III. O código estś relacionado na Figura 
5.37. Como o código da UltraSPARC III e especialmente diffcil dc ler. mesmo como código ile montagem. e ainda 
quc tenhamos inuila prdticu, tomamos a libcrdadc dc dcfinir alguns shnholos no infcio. para dcixa-lo mais claro. 
Para que isso funcione, o programu tem de ser exccutado por meio dc um programa denominado cpp. o prć-proccs- 
sador C. antes de montd-lo. Alem disso. usatnos letras mimisculas aqui, porque o asscmblcr da UltraSPARC III 
insistc nclas (caso algum leilor queira digitar o programa cm seu computador). 


Ifdeline N %(0 
Sdefine I %11 
udeftna J %I2 
tfdefine K %I0 
Odetlne ParamO %oO 
ttdaflne Parami %o1 
tfdefine Param2 %o2 
ttdefina Seratch %/1 
proc 04 
global towers 

towera: save %sp. 112. %sp 
cmpN.1 
bna Else 

aethl %hl(1ormat). ParamO 

or ParamO. %lo(tormal), ParamO 

mov I, Parami 

cali printf 

mov J. Param2 

b Done 

nop 

Haurn S.37 

Tbires da Hanói Else: mov 6. K 

para a ® u b K. J.R 

UltraSPARC Ih. 8Ut > K - W 

addN. 1, Scratch 
mov Scratch, ParamO 
mov I. Parami 
cali towers 
mov K, Param2 

mov 1. ParamO 
tnov I, Parami 
cali lowers 
mov J. Param2 

mov Scratch. ParamO 
mov K, Parami 
cali towers 
mov J, Param2 

Done: ret 

restore 


r N ś parflmetro de entrada 0 7 

/* I 6 parflmetro de entrada 1 V 

r J 6 parflmetro de entrada 2 7 

r K 6 variflvel local 0 7 

/• ParamO ń parflmetro de salda 0 7 

r Parami 6 parflmetro de salda 1 7 

/• Param2 ń parAmetro de salda 2 7 

/* a propósilo. cpp usa a conyanęflo de comentario C 7 


l so (n = 1) 

I se (n 1= 1) goto Else 

I prlntf("Move a dik trom %d to %d\n". I,)) 

I ParamO - enderaęo de cadeia de tormalo 
I Param I - i 

I chame prlntt ANTES DE parflmetro 2 0) ser ajustado 
i use a posięflo vazia após chamada para a|ustar parflmetro 2 
I termlnamos agora 
! preencha posięflo vazia 

I inicis t« — S -1 — J 
lk-6 | 
lk=6 l-| 

I inicle lowers(n - 1. 1 , k) , 

I Temporflrio = n -1 
I parflmetro 1 • I 

1 chame towers ANTES DE parflmetro 2 (k) ser ajustado 
1 use a posięflo vazia após chamada para ajuslar parflmetrn 2 

I inicle towers(l, I. j) 

I parflmetrn 1 - I 

I chame tnwers ANTES DE parflmetro 2 (|) ser ajustado 
i parflmetro 2 - j 

I inicie towers(n t. k, j) 

I parflmetro 1 - k 

I chame towers ANTES DE parflmetrn 2 (|t ser ajustado 
I parflmetro 2 »| 

! retorne 

I use a posięflo va?la após ret para restaurar janelas 


formaf asclz "Move a disk (rom %d to %d\rt" 
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Em termos de ulgoritmo, u versśło UltraSPARC III 6 identiea a versao Pentium 4. Ambas testam n para eonie 
ęar, desviam para a Jtiusulaelse sen > I. A principal complexidade da versao UltraSPARC se deve u algumas pro 
priedades da ISA. 

Para comeęar. a UltraSPARC III tein de passar o endereęo da eadcia de formulo para prinif, mas a ntóquina 
nao pode aperias mover o endereęo para o registrador que contem o parametru que esta saindo porque nio ha 
neuluun modo de eolocur unia constante de 32 bils ein um registrador em umu tiniea inslruę&o. li preeiso duas ins- 
truęóes para fuzer ifcso, SETHI e OR. 

A próxima coisa a nolar ć quc nao ha nenhuma neeessidade de fazer um ujuste de pilha após u chumuda por 
que u janela de tegistradores <f ajustada pela inslruęao RESTORE no finał do procedimento. A eapaeidade de colo- 
ear os parametros que estao saindo em registradores e nao ter de ir atć a memória ć um grandę ganho de desempe- 
nho se a profundidude da chamada nflo fieur muito grandę mas, em geral. todo o mecanismo ila janela de 
registradores provuvelmente niio vale a eomplexirlade. 

Agora notę a inslruęao NOP em seguida ao desvio para Punę. Hssa e urna posięao va/ia. Lssa inslruęao sem- 
pre sera exeeuluda, uinda quc venha após urna iustruęao dc desvio incondicional. O problemu e que a UltraSPARC 
III tein um puralelisino profundo e ale o hardware deseobrir que tern um desvio em maos u prókima inslruęao jd 
esturd pratieumenle conclufdu. Bem-vindo ao Mundo Maravilhoso da Erogrumaędo RISC. 

Essu caracterfsticu divertida tuinbćm se estende u ehamadas de proeedimento. Observe a primeira chamada 
para utwers na clausiilu else. Elu eoloca n - I em %o() e i em %ol, mas faz a chamada de pioccdimento para lowers 
anles de eolocur o ultimo paramelro no lugar. No Pentium 4, primeiro voce passa os parametros, dc|H>is faz a ehu- 
muda. Aqui, priinciio voee passa alguns dos parametros, depois faz a chamada e, por firn. passa o Ultimo parame¬ 
tru. E. novumente, atć a maquinu pereeber que esta lidando com urna inslruęao CALL. a inslruęao seguinte ja esta 
tńo profunda no parulelismo que tem de ser exeeutada. Nesse caso, por que niio usar a posięSo vazia para passar o 
ultimo paramelro? Mesmo quc a primeirfssima inslruęao do proeedimento cbamado use aquele paramelro. cle esta¬ 
ra Id u tempo. 

Por fim. em Dane. vemos que a inslruęao RET tarnbdm tem uma posięao vuzia. Esta ć usada para u inslruęao 
RESTORE. que inerementa CWP e reeoloca a janela de registradores no modo quc o chamador espera. 


5.8 A arąuitetura IA-64 e o Itanium 2 

A Intel estd ehegando rapidameute ao ponto cm que jd espremeu quase a ultima gota dc sumo da ISA IA-32 e 
ilu linha de proeessadores Pentium 4. Novos modelos uinda pudem se benefieiur dos avanęos da tecnologia de fubri- 
eaędo. o que signitica transistores menores — e, portanto, muiores vcloeidadcs de relógio. Todavia, deseobrir novos 
truques para ueelerar uinda mais a implementaęao esta fieando cuda vez mais diffeil a medida que as limitaęoes 
imposlas pela ISA IV32 aumentam eada vez mais. 

A tiniea soluędo real e ahandonar a IA-32 como a linha principal de dcscnvolvimento e passar para uma ISA 
eonipletamente novu, Na serdudc, e isso que u Intel pretende fazer. De fato, ela tem planos para duas novas linhas. 
O I MT-64 e uma veisdo mais larga do Pentium 4. eom registradores de 64 hits e um cspaęo de endereęo de 64 hits. 
Esse processudor resolve o problemu de espaęo de endereęo, mus uinda tem todas as eomplexidudes da implemcn- 
taęao do Pentium 4. Na vcrdudc, niio passa de um Pentium mais largo. 

A ouiru novu uiquitetura, desenvolvida cm eonjunto pela Intel c Hewlett Puckard, e denominada IA-64. Ć uma 
mńquina eompleta de 64 hits do infeio ao fim, e niio uma extensiio de uma maquina de 32 hits jd existcnte. Alćm do 
inuis, em muitos aspeetos e umu ruptura radieal em relaędo ao Pentium. O mercado inieiul sito os servidorcs de altu 
tecnologia, mus, eom o tempo, pode inigrur para o mundo dos computadores de mesa. De quulqucr modo, a arqui- 
letura ć tao rudiealmcnte dilercnle de tudo o que estudamos atć agora que valc a pena esiuda-la só por essa raziło. 
A primeira implementaęao da unjuitctura IA-64 e a serie Itanium. No restante desta seęao estudaremos a arquiletu- 
ru IA-64 e a CPU Itanium 2 que a implcmcnlu. 

5.8.1 O problema do Pentium 4 

Antcs de entrai nos detalhes da IA 64 e do Itanium 2, e bom rcvisar o quc esta errado no Pentium 4 para ver 
quais problemas u Intel cstavu (cniando rcsolvcr com a nova arquiletura. O principal fato da vida que causa todo o 
problemu ć que a IA i2 e uma ISA antiga eom todas as propriedades erradus para u tecnologia eorrenle. E uma ISA 
CISC eom inslruęftes de coinprimento variavel e uma profusao de diferentes formatos que sao diffeeis de eodiliear 
rapidameute durante a cxecuęao. A tecnologia eorrenle funeiona melhor eom ISAs RISC que tem um tinieo eom- 
primento de inslruęao e um opcodc de eomprimento fixo, fiieil de decodiltear. As insiruęńes IA-32 pudem ser des- 
memhrudus em microoperaęócs semelhantes a RISC durante a cxeeuęao, mas isso requer hardware (area de chip), 
toina tempo e agrega eomplexidade ao projeto. Esse ć o primeiro problema. 

A IA-32 tambćm tem uma ISA de dois endereęos, eom base em memória. A maioria das instruęóes refereneia 
memńria, e grandę parte dos programadores e compiladores niio se preoeupa muito com refereneiur a memória o 
tempo todo. A tecnologia eorrenle favorece ISAs do tipo earregue/urmazene quc só referenciam a memória para pas¬ 
sar operandos paru registradores, poróin, quanlo ao mais, efeluam todos os seus etileulos usaiulo instruęóes de regis- 
trador eom tres endereęos de memória. Como as veloeidades de relógio das CPUs estao crescendo eom rupidez 
muito maior do que as yeloeiilades de memória, o problema Ikara piór com o tempo. Esse ć o segundo problemu 
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A IA-32 tem um conjunto tle registradores pcqueno e irrcgular. Alćm dc dar um nó nos compiladores. essa 
pequena quan(idadc de regislradores de uso geral (quatro ou seis. dependendo de como voc$ conta ESI e EDI) requer 
que resullados intermediiirios sejam despejados na mcmória o tempo todo, gcrando referencias extras i) memória, 
mesmo quando a lógica nao as exige. A 1A-32 perde a partida. 

Agora vamos para a finał. A petjuena quantidade de regislradores causa muilas dependćncias, em espccial 
dependSncias WAR desnecessarias, porque os resullados tfim de ir para algum lugar e nSo ha regislradores cx(ras 
disponIveis. Contornar a falta de regislradores requer que a iniplementaęao realize renomeaęSo inlemamenle - 
urna tarefa tcdiosa como poucas — para regislradores secretos dcntro do buffer de rcordenaęSo. Para evitar blo- 
queios muito freąiientes por ausencia da cache. as instruęóes tćm de ser executadas fora tle ordem. Conludo. a 
semSnlica da LA-32 especifica interrupęóes precisas, portanlo as inslruęóes fora de ordem (Sm de ser reliradas em 
ordem. Tudo isso exige muito hardware complexo. Mais um gol contra. 

Real i/.ar todo esse trabalho rapidamente requer profundo paralelismo. Por sua vez. paralelismo profundo sig- 
nifica que as inslruęóes que entram nele levam muitos ciclos antes de ser conclufdas. Por conscqti£ncia, ć essencial 
que a previsao de desvio seja muito precisa para garantir que as inslruęóes certas estao enlrando no paralelismo. 
Como unia md previsao requer a dcscarga do paralelismo, com grandę cuslo, atć mesmo unia taxa razoavelmente 
baixa de md prcvis3o pode causar urna degradaęao substancial do desempenho. Qutro gol contra. 

Para atenuar os problemas causados pela md previsao, o processador tein de fazer execueao cspcculaliva, com 
todos os problemas que isso acarreta. em especial quando rcfcróncias a mcmória no caminho errado causain urna 
exceęao, o penalli. 

Podemos jogar um campeonato inleiro de futebol. mas a essa altura jd deve ter ficado ciuro que ha um próbie - 
ina rćal. E nem sequer mencionamos o fato de quc os cndcrcęos dc 32 bits da IA-32 limitam pmgramas individuais 
a 4 GB de memória. o quc ć um problema crescente para servidores de ultima geraędo. O EMT-64 resolve esse pro- 
blcma, mas nao todos os outros. 

Levando ludu isso em conta, a situaędo da 1A-32 pode ser comparada favoravelmente com o estado da mec3- 
nica celestial um pouco antes de Copćrnico. A teoria dominantę na astronomia naquela ćpoca era que a Terra era 
fixa e imóvel no espaęo e que os planetas se moviam em efreulos com epiciclos ao seu redor. Contudo, a medida 
que as observaęóes ficavani melhores e mais desvios em relaęao a esse modelo podium ser claramente observados, 
epiciclos eram adicionados a epiciclos atć que todo o modelo desabou sob o peso de sua complexidade interna. 

Agora, a Intel estd nessa mesma situaędo embaraęosa. Urna enonne fraęao de todos os transistores do Pentium 
4 e dedicada a decompor inslruęóes CISC, distinguir o que pode ser feito em paralelo. resolver conflitos, fazer pre- 
visóes, sanar as consequ6ncias de previsóes incorretas e outros controles, sobrando urna quantidade surpreendenle- 
mente pequcna deles para executar o trabalho real que o usudrio solicitou. A conclusdo a quc a Intel estd inexora- 
velmente chegando e a unica sensata: detonar a coisa loda (IA-32) e comeęar novamentc com urna ficha limpa 
(IA-64). A EMT-64 ainda tem um pouco de ffllego, mas, na realidade, lenta disfaręar a questao da complexidade. 

5.8.2 O modelo IA-64: computaęao por instruęao explicitamente paralela 

A idćia fundainental da IA-64 ć transferir o trabalho do tempo dc execuędo para o tempo de compilaędo. No 
Pentium 4, durante a cxecuęao a CPU reordena instruęóes, renoineia registradores, cscalona unidades funcionais e 
realiza muitas oulras tarefas para determinar como manier todos os recursos de hardware totalmente ocupados. No 
modelo IA-64, o compilador decifra todas essas coisas com antecedćncia e produz um programa que pode ser exe- 
cutado tal como ć. setn que o hardware tenha de fazer malabarismos durante a execuęao. Por exemptu, em vez de 
dizer ao compilador que a mdquina tem oito registradores quando na verdade tem 128, e entao tentar imaginar 
durante o tempo de execuęao como evitar dependencias. no modelo IA-64 o compilador sabe quantns regislradores 
a mdquina realnienie tem, dc modo quc, antes de tudo, pode produzir um programa que nao tem nenhum conflito 
de regislrador. De maneira semelhante, nesse modelo o compilador monitora quais unidades funcionais estao 
ocupadas e nao emite instruęóes que usam unidades funcionais que nao estao disponfveis. f) modelo que toina o 
paralelismo subjacente no hardware visfvcl para o compilador ć denominado EPIC (Explicitlv Parallel 
Instruction Computing — computaęao com instruęóes explicitamente paralelas). Atć certo ponto. o EPIC 
pode ser considerado o sucessor da RISC. 

O modelo IA-64 tem v3rias caraclerfslicas que acclcram o desempenho. Entre elas reduęao de’ referencias h 
memória, escalonamento de instruęóes, reduęSo ile desvios condicionais e especulaęSo. Agora estudarcmos cuda 
urna delas separadamente c discutiremos como elas sao implementadas no lianium 2. 

5.8.3 Reduęao de referencias a memória 

O Itanium 2 tem um modelo de memória simples. A mcmória consiste em atć 2 M bytes de memória linear. 
Instruęóes estao disponfveis para acessar memória cin unidades de 1, 2,4, 8, 16 e 10 bytes, a ultima para ntimeros 
dc ponto flutuante de 80 bits padrio IEEE 745. Referćncias 3 memória n3o precisam estar alinhadas por suas fron- 
teiras naturais, mas o desempenho incorre em unia penalidade se n8o estiverem. A mcmória pode ser big endian ou 
littlc endian , o que ć determinndo por um bit em um registrador que pode ser carregado pelo sistema operacional. 

O acesso 3 memória ć um enorme gargalo em todos os computadores modcmos porque as CPUs s3o muito 
mais rdpidas do que a memória. Um modo de reduzir referencias 8 mcmória ć ter unia cache de mvel I grandę no 
chip e unia cache de nfvel 2 maior ainda próxiina ao chip. Todos os prajetos modemos tem essas duas caches. Mas 
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nao devemos nos rcstringir is enehes na huśta dc outros modos de reduzir rcferencias ii mcmóriu, e a IA 64 usu 
alguns desses modos. 

O melhor modo de acclerur referfincias <t memória ć, antes de qualquer coisa, evitd-las. A implemenluęiio 
llanium 2 do modelu IA-64 tem 128 registradores de uso geral de 64 hit.s. Os priineiros 32 deles sao cslńticos, mas 
os 96 resianlcs sao usados como urna pilha dc registradores muito semelhantc ao esquema de janela de registrado¬ 
res da UltraSPARC' III. Contudo, diferente da UltraSPARC III, o numero de registradores vis(vcis para o programu 
ć variavel c pode mudar de procedimento para procedimento. Assim, cada procedimento tem acesso a 32 registra¬ 
dores estiiticos e a ulgum mimem (varidve!) de registradores de alocaę&o dinamica. 

Quando urn procedimento ć chamado, o ponteiro de pilha de registradores 6 avanęado, de modo que os parii- 
metros de entrada sao visfveis em registradores, mas nenhum registrador ć alocado para vari4veis locais. Ś o pró- 
prio procedimento que decide de quantos registradores precisa e avanęa o ponteiro de pilha de registradores para 
aloca-los. Hsses registradores nao precisam ser salvos nu entrada nem restaurados na salda, embora, se o procedi 
mcnto precisar modiflcar um registrador estitico, deve ter o cuidado de salva-lo explicitamentc antes e restaura-lo 
inais larde. Por ter mimero varidvel de registradores disponfvcis e talhados para o quc o procedimento precisa, os 
registradores, um recurso eseasso, nao sao desperdięados, e chamadas de procedimento podem se aprofundar antes 
de os registradores terem de ser descarregados para a tncmńria. 

O llanium 2 lamhem tern 128 registradores de ponto tlutuante em formato IEEE 745, que nim funcionam como 
urna pilha de registradores. Esse numero muito grandę de registradores significu que muitos calculos com ponto flit- 
tuante podem manier todos os sens resultados intennedidrios em registradores e evitar o arma/enumento tempora- 
rio de resultados na memória. 

Tamhem ha 64 registradores de predicudos dc 1 bil, oito registradores de dcsvio c 128 registradores de aplica 
ęao de uso especial utili/ados para vdrias finalidadcs, lal como passar parflmelros entre programas de aplicaędo e o 
sistemu operacional. lima visdo geral dos registradores do llanium 2 ć dada na Figura 5.38. 


5.8.4 Escalonamento de instruęóes 

lim dos principais problemas do Pentium 4 ć a dificuldade de escalonar as vdrias instruęóes pelas vdrias uni- 
ilades funcionais e evitar dependSncias. Sao necessdrios mecanismos extremamente complexos para manipular 
todas essas qoestóes em tempo de execuęao, e urna grandę fraęao da area do chip e dedicada a seu gerenciamento. 
A 1A-64 e o llanium 2 evitum todos esses problemas porque e o compilador que faz o trabalho. A ideia fundamen 
tal e que o programu consista em urna seqiiencia de grupos de instruęao Denlro de certas fronteiras, todas as ins- 
truęóes dentro de um grupo nao entrant em conflito umas com as outras, nao usam mais unidades funcionais e recur 
sos do que a maquina tem, nao contem dependencias RAW e WAW e tem somente dependćncius WAR restritas. 
Grupos de instruęóes conseculivos purecem estar sendo executados estritamentc em seqiićncia, sendo que o segutt- 
do grupo n3o comcęa ate que o primeiro seja concluido. Entretanto, a CPU piwie iniciar u segundo grupo, cm parte, 
assim que perceher que e scgtiro fazer isso. 

Como conseqiiencia dessus regras, a CPU fica livre para escalonar as instruęóes dentro de um grupo nu ordem 
que preferir, possivelmente em paralelo, se puder, sem ter de se preocupar com conflitos. Se o grupo de instruęóes 
violur as regras, o comportumento do programu ć indellnido. Cabe uo compilador reordenar o código de montagem 
gerudo pclo programa-fonte de miwio a sulisfazer todos esses requisitos. Paru compilaęao rapida enquunto um pro- 
grama esta seiulo depurado, o compilador pode colocar cuda instruęao em um grupo difereuic, o que e fńcil de fazer. 
mas rcstilla em mau dcscmpcnlui. Quumio e hora de produzir código dc prmluęao, o compilador pode gaslar um 
longo tempo otimizando-o. 

Instruęóes sSo organi/udas em pacoles de 128 bits como tnostrado na parte superior da Figura 5.39. Cada 
pucote contćm trćs iuslruęócs de 41 bits e um gabarito de 5 bits. Um grupo de instruęóes nao precisa ter um ntime 
ro inteiro dc pacotes. pode comeęar e terminal no meio de um pucote. 

Existem mais de cem lormalos de instruęao. Um formato tfpico, nesse caso, para operaęóes de ULA como ADD, 
quc suma dojs regisU adores em um terceiro, e mostrado na F'igura 5.39. O primeiro cantpo, GRUPO DE OPERAęAO, 
e o grupo principal e tnforma a classe geral da instruęao, como urna operaęiio dc ULA com inteiros. O próximo campo, 
TIPO DE OPERAęAO dń u operaęao especifica requeriria, tal como ADD ou SUB. Em seguidu vem os tres campus de 
registrador. Por lim, temos o REGISTRADOR DE PREDICADO. que sera descrito em breve. 
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O gabarito do pacote informa, em essSncia, quais unidades funcionais o pacote necessita e tambdm a posiędo 
da frontcira de urn grupo de instruęao presenle. se houver. As principais unidades funeionais san n ULA de inteiros. as 
inslruęoes de ULA para ndo inteiros. operaęóes de memória. operaęóes de ponto lluluajile. desvios e outras. F. claro i)uc. 
com seis unidades e tres instruęóes, a ortogonalidade conipleta exigiria 216 combinaęóes, mais outras 216 para indicar 
urn inarcador dc grupo de instruędo após a instruęao 0. mais outras 216 para indicar um marcador de grupo de instru¬ 
ęao após a instruęiio 1. e ainda mais outras 216 para indicar um marcador de grupo de instruęao após a instruęao 2. 

Com só 5 bits disponfveis. apenas um ndmero muito limilado dessas combinaęóes 6 permitido. Por outro lado. 
permitir tres instruęóes de ponto flutuante em um pacote nao funcionaria, nem mesmo se houvesse um modo de 
especificar isso. urna vez que a CPU nao pode iniciar trcs instruęóes de ponto flutuante simullaneamente. As com¬ 
binaęóes permitidas sao as que. na verdadc, sao vidveis. 

5.8.5 Reduęao de desvios condicionais: predicaęao 

Unia outra caracterfstica importante da IA-64 ć a nova mancira com que ela lida com dessios condicionais. Sc 
houvesse um meio de se livrar da inaioria delcs. as CPUs podcriam ser mais simples e mais rdpidas. A primcira 
vista poderia parecer iinpossfvel ficar livrc de desvios condicionais porquc programas estao replclos dc declaraęoes 
do tipo *ifContudo, a IA-64 usa urna tecnica denominada predicaęao. que pode redu/ir muito seu numero 
(August et al„ 1998; e Hwu. 1998). Agora vamos fazer uma descrięao resumida dessa tćcnica. 

Em nulquinas atuais. todas as instruęóes sao incondicionais, no sentido de que, quando a CPU alingc uma ins¬ 
truęao, ela apenas a executa. Nao lid nenhum debate interno do tipo: "Fazer ou n3o fazer, eis a quest3o". Ao contrd- 
rio, em uma arquitctura predicada, as instruęóes contSm condięóes (predicados) que informam quando elas devem 
ser executadas e quando nao devem ser executadas. Essa mudanęa de paradignia de instruęóes incondicionais para 
instruęóes predicadas e o que possibilita que nos livremos de (muitos) desvios condicionais. Em vez de ter de esco- 
lher entre uma seqiiencia dc instruęóes incondicionais ou uma outra seqiiSncia de instruęóes incondicionais, todas 
as instruęóes sao fundidas em uma dnica scq(iencia de instruęóes predicadas, usando diferentes predicados para 
diferentes instruęóes. 

Para ver como a predicaęao funciona, vamos comeęar com o exemplo simples da Figura 5.40. que moslra a execu- 
ęao condicional. uma precursora da predicaęao. Na Figura 5.40(a) vemos uma dcclanięao if. Na Figura 5.40(b) vemos 
stia Iraduęao para tres instmęóes; uma instruęao de comparaęiio. uma de desvio condicional e uma tle mnvimentaęao. 

Na Figura 5.40(c) nos livrnmos do desvio condicional usando uma nova instruęao. CMOVZ. que e uma 
movimcntaęao condicional. Sua funęao ć verificar se o terceiro registrador. R1, ć 0. Sc lor, ele copia R3 para 
R2. Se nSo for. nada faz. 

Uma vez que lemos uma instruęiio que pode copiar dados quando algum registrador for 0, a partir daf ć um 
|>equeno passo para uma instruęiio que possa copiar dados quando algum registrador nfio for (I, por exeinplo, 
CMOVN. Se ambas as instmęóes estiverem disponfvcis, estamos na rola da cxecuętio condicional completa. Imaginc 
uma declaraęiio II com vdrias atribuięócs na parte then e vdrias outras atribuięóes na parte else. A dcclaraęflo intei- 
ra pode ser traduzida para código para ajustar algum registrador para 0 se a condięSo for falsa c para um outro valor 
se for vcrdadeira. F.rn seguida ao ajustc registrador. as atribuięóes da parte then podem ser eompiladas em uma 
seq(ióncia de instruęóes CMOVN e as atribuięóes da parte else podem ser eompiladas em uma seq(lóncia dc instru 
ęóes CMOVZ. 

Todas cssas instruęóes, o ajuste do registrador, as CMOVN e as CMOVZ furmani um unico bloco basico sem 
nenhum desvio condicional. As instruęóes podem alć ser reordenadas, seja pelo compilador. incluindo elevar as atri- 



|| (R1 = 0) { 

CMPR1.0 

CMOVZ R2.R3.R1 

ngura 5.40 

R2 = R3; 

BNE LI 

CMOV7 R4.R5.R1 

R4 = R5; 

MOV R2.R3 

CMOVN RB.R7.R1 

(a) Declaraęao if. (b) 

) else ( 

MOV R4.R5 

CMOVN R8.R9.RI 

Código generico de 

R6 = R7; 

BRL2 


montagem para (a). 

R8 = R9; 

LI: MOV R6.R7 


|c| InstmęSo 

1 

MOV R8.R9 


condicional. 

(a) 

L2: 

(b) 

(0 


I 



ięflo 


que. 

icar 

(ru¬ 


do, 

de 

tn¬ 


ie 

ra 


o 



Figura & 41 

|a) Uedai.ięao If. |l<) 
Código genónco de 
montagem para |a) 
|c) Eaecueao 
condicioii.il _ 


Futura b.42 

(a) Declaiaęao it. |t>) 
Código genśnco de 
montagem para (a). 
(c| Execuęao 
predicadu 


it (R1 = 0) ( 

CMPR1.0 

CMOVZ R2.R3.R1 

R2 = R3; 

BNE LI 

CMOVZ R4.RS.R1 

R4 = R5; 

MOV R2,R3 

CMOVN R6.R7.R1 

jBteel 

MOVR4H5 

CMOVN R8.R9,RI 

R6 = R7, 

BR L2 


R8 = R9; 

U MOV R6.R7 


I 

M0V RB R9 



L2; 


(a) 

<b) 

(c) 


It (Rt = R2) 

CMPR1.R2 

CMPEO R1R2.P4 

R3 = R4 + R5; 

BNE LI 

<P4> ADD R3.R4.R5 

else 

R6 = R4 R5 

MOV R3.R4 

ADD R3.R5 

BRL2 

Li; MOVR6,R4 

SUB R8.R5 

12 : 

<P5> SUB R8.R4.R5 

(a) 

(b) 

(C) 


huięAcs paru unieś do tesle, seja durante a execuędo. O tiiiieo senao e que a condiędo tem de ser conhecida na hora 
cni que as inslruęAes Jevcni ser rctiradas (próxitno ao finaj do paralelisino). Um exemplo simples que inostra a parte 
Ihen e u parte alse e dudo na Figura 5.41. 

Hmbora tenhumos mostrado inslruęAes condicionais rnuito simples aqui (nu verdade liradas do Pentium 4), nu 
IA-64 IikIus as inslruęAes sao predieadas. Isso signitica que u execuędo de loda instruęao pode ser iransformada em 
condicional. O cmnpo extru de 6 bits a que nos referimos anles seleciona um dos rcgistradores de predicados de 64 
hits. Assim. urna decluiaęao if sera compilada para eódigo que marca um dos registmdores de predieados como 1 se a 
condiędo tor vcrdadeira e para O se ela for falsa. Siniultdnea e automatieaniente cla marca um outro registrador de prc- 
dieudo para o vulor inverso. Usundo predicaęao, as inslruęAes de mtkjuina quc furmani as cliusulas then e else serao 
fundidas em urna limca eudeia de instruędes, as primeiras usando o predicado e as ultimas usando seu inverso. 

Hmbora simples, o exemplo de Figura 5.42 mostra a idćia bas i ca de como a predicaęao pode ser usada para 
elimiuar desvius. A inslmędo CMPEO compara dois regislradores e marca o registrador de predicado P4 como I se 
eles forem iguais c como O se forem diferentes. Tambem ajusta um registrador emparelhado, por exemplo, P5, para 
a condiędo imersu. Agora as inslruęAes para as partes Ił e then podem ser colocadas urna alrfls da outra, cada urna 
condicionada conforme algum registrador de predicado (mostrado entre parćnteses angulures). Nesse caso pode ser 
colocado eódigo arbitrório contanto que cada instruęao seja adcquadamcnle predicada. 

Na IA-64, cssa iileiu ć levada ao extremo, com inslruęAes de comparaęflo para ajustar os rcgistradores de pre- 
dicados, bent como inslruęAes aritmeiicas e outras inslruęAes cuju cxccuę3o dependa de ulgum registrador de pre¬ 
dicado. InslruęAes predieadas podem ser alimentadas no paralelisino em $eqii£ncia, sem nenhuma protelaęao nein 
problcmus. K por isso que sdo ido óteis. 

O modo como a previsdo realnienie fimciona na IA-64 i que loda instruędo e execuiada. No Anal do puralc- 
lismo, (|uundo e bora dc relirar unia instruęao, ć fcita urna ycrificaędo paru ver se o predicado e vcrdadeiro. Se for, 
a instruęao ć relirada normulinciite e seus rcsultados sao cscritos de volta no registrador de destino. Se o predicado 
lor lalso, udo ć fcita ucnhuma cscrita retroativa. portanto a instruęao lido tem nenhum efcilo. A predicaęao i discu- 
lida ciii dciallies em Dulong (1U9K). 

5.8.6 Cargas especulativas 

Urna outra cantclerfslica da IA-64 que acclcra a cxecuędo i a presenęa de instruęoes LOAO especulativas. Sc 
unia LOAO for cspcculativu c falhar, em vez de causar unia cxceędo, cla apcuas para, c um bil associado com o regis¬ 
trador a ser carrcgado ć ajustudo marcando o registrador como invdlido. Hsse e exatamenle o bit envcnenado apre- 
scnlado no Capitulo I Sc acaso o registrador envcncnado for utilizado mais lardc, a exceęao ocorre nesse instantc; 
caso contrario, nada uconlece. 

O modo normal dc utili/ar a especulaęao ć o compilador elevar inslruęAes LOAO para posięAes acima antes dc 
serem necessarias. Conicęando cedo, clas podem ser conclufdas antes que os resultados sejam necessdrios. No local 
em quc o compilador prccisa usar o registrador quc acabou de ser carrcgado, cle inscrc urna instruęao CHECK. Sc 
o vulor cstivcr prcscute, CHECK ugc como urna NOP, c u cxecuęao continua imediatumeutc. Sc o valor udo estiser 
presente, a próxima instruędo deve protelar. Se ocorreu urna exceę0o c o bit ciwcncnado estiver ligado, u exccęao 
pendente ocyrre nesse ponio. 

Hm resumo, unia mtiquinu que iinplemente a arquitetura IA-64 ohtem snu velocidadc de v,1rias fontes. No 
nucleo usta urna niiiquina RISC de óltinia geraędo, com paralelisino, do lipo carregue/urmazene, e tres endereęos. 
Alom disso, a IA-64 tein um modelo dc paralelisino cxpl/cito que requer quc o compilador decifre quais inslruęAes 
podem ser execuludas ao mesmo tempo sem conflitos c as agrupc cm pacotes. Dessc modo a ('PU pode escalonar 
cegamente um pacotc sem ter dc pensar muito. Em seguida, a predicaęao permite que as declaraęAes em ambos os 
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ramns de uma declaraęAo if sejum fundidas em urna linica cndcia. elimiuando o desvio condicionol e. por isso. a pre- 
visAo do caminho quc dever«i seguir. Por firn, LOADs espcculativas possibilitant hu sen r operandos com anlecedćn- 
cia, sem penalidade se mais tarde se dcscohrir que, afmal, nao sito necessńrios. 

Para mais inlurmaęAo sobre o llaniutn 2 e sua microarquitctura, veja McNairy c Soltis, 2(X)virtual 
memorycrypto3; e Rtisu ei al., 2004. 

5.9 Resumo 

O m'vcl de arquitelura do conjunto de instruęAo ć o quc a maioria das pessoas chama de lingiuigein de mU/tiiiui. 
Nessc n(vel a nuiquina tern uina memória composta de byles ou paJavras que alcanęa algumas dezcmyi de rnegahy- 
les e instruęóes como MOVE, ADD e BEQ. 

Grandę parte dos computadores tern uma mctnória organizada conto uma seq(i£ncia de b\ tes. com 4 ou 8 bytes 
agnipados cnt pnlavras. Normalmente tambem lid entre 8 e 32 registradores prcsentes. eada urn conlcmlo uma palavra. 
Em algumas mdquinas — por escmplo. o Pentium 4 —. referfincias a palavras na memória nAo iCm de estar alinliadas 
em frontciras naturais na memńria, enquanlo em outras devcm estar (porexemplo. no caso da I UtraSPARC III). 

Instruęóes geralmcnte tern um, dois ou trćs operandos que sao endcreęados usando modos de cndereęamcnto 
imcdiato. direto, registrador. indexado nu outros. Algumas mdquinas tćm uma grandę quantidade de modos de ende- 
reyamento complexos. Em geral ha instruęóes disponńcis para mover dados, para operaęóes diadicas e monddicas. 
incluindo desvios aritmćticos e booleanos, para desvios. chamadas de procedimento e laęos e. as ve/es. para I7S. 
Instruęóes tfpicns movem uma palavra da memória para um registrador (ou vice-versa), somain. subtraem. multipli- 
cam ou dividetn dois registradores ou um registrador e uma palavra de memória, ou comparain dois itens em regis- 
tradores ou na memória. NAo ć incomum um computador ter bem mais de 200 inslmęóes em sen repertório. 
Maquinas CISC muitas vez.es (Cm muito mais. 

O controle de fluxo no n(vcl 2 e conseguido com a utilizaęao de uma variedadc dc primitivas. incluindo des- 
vios, chamadas de procedimento. chamadas de co-rotinas. exccęóes e intcrrupęóes. Desvios sao usados para cncer- 
rar uma seqUCucia de instruęAo e iniciar outra nova. Procedintentos sao usados como um mmtnismo de abstrayao 
para permitir que uma parte do progranta seja isolada como uma unidadc e chatnada de vArios lugarcs Co-rotinas 
permitent que dois threads de controle trabalhem simultaneamcnte. Exccyócs sAo usadas para sinali/ar situaęóes 
excepcionais. como transbordo aritmetico. Interrupyocs pennitem que E/S ocorra em paralelo com o processo Prin¬ 
cipal dc computayAo. sendo quc a CPU obtćm um sinal tao logo a E/S tenha sido conclufda. 

As Torres de Handi sao um problenta divertido cuja inleressante soluęAo rccursiva cxaminamos. 

Por fint. a arquitetura IA-64 usa o modelo EPIC de computaęAo para lacililar aos programas a exploraę9o do 
pnralelismo. Ela usa grupos de instruęóes, predicaęao e instruęfles LOAD cspeculativas para obter velocidade. Ao 
todo, cla pode representar um avanęo significativo em relayao ao Pentium 4. mas coloca grandę parte da carga da 
paralelizaęao no contpilador. 


Problemas 

1. Uma palnvrn em um computador linie emlinn tern o valor numćrico de 3. Se ela for transmitida para um com¬ 

putador bif> endian byle por byte e ali armazenada com o byte 0 no byle 0. e assim por dian te, qual 6 scu 
valor numćrico na maqtiina big endianl 

2. No Pentium 4. instruyócs poiłem conter qualquer quantidade de bytes, parou fmpnr. Na UltraSPARC III. kulas 

as instruęóes contśm um mimem inteiro de palavras. isto ć. um numeru par de bytes. Cite uma vantagein do 
csquema Pentium 4. 

3. Projete um opcode de expnnsao para permitir que todos os seguintes sejam codificados em uma instruęAo de 

36 bits: 

7 instruęóes com dois endereęos de 15 bits e um mimem de registrador de 3 bits 
500 instruęóes com um endereęo de 15 bits e um niimero de registrador dc 3 bits 
40 instruęóes sem nenhum endereęo nem registrador 

4. Uma certa m.1quina tern inslmęóes de 16 bits e endereęo* dc 6 bits. Algumas inslmęóes tent um endereęo e outras 

tfim dois. Se houver n insuuęócs de dois endereęos. qual ć o mimem maximo de inslmęóes de um endereęo? 

5. E possfvel projetar um opcode de expansAo que permita que os seguintes sejam codificados em uma instruęao 

dc 12 bits? Um registrador tern 3 bits. 

4 inslmęóes com trfis registradores 
255 instruęóes com um registrador 
16 instruęóes com zero registradores 




Ł ‘- 6 . 
n- 


Dados iks valoies ile mcmória a scguir, c uina nuUjuina dc um cndereęo com uni acumulador, quais valores 
as scguinles mslruęóes carregam no acumulador? 


al 


palaua 20 conlćrn 40 
palavra 30 coittćm 50 
palavra 40 conlćm 60 
palau a 50 conlćm 70 

a. LOAD IMMEDIATE 20 

b. LOAD DIHECT 20 

c. LOAD INDIRECT 20 

d. LOAD IMMEDIATE 30 

a. LOAD DIRECT 30 

f. LOAD INDIRECT 30 

7. Comparu móquiuus dc 0, 1, 2 e 3 cndercęos cscrevcndo programas para compular 
X = |A4BXQ/(D-EXF) 

para cada unia das ijuuiro maquinas. As instruęóe;. disponiveis para uso s.1o as scguinles: 


PUSHM 

LOAD M 

M0V |X = Y| 

M0V |X = Y| 

POP M 

STORĘM 

ADD |X = X+Y1 

ADD |X = Y+Z| 

ADD 

ADD M 

SUB |X = X-Y| 

SUB (X « Y—Z) 

SUB 

SUB M 

MUL |X - X*Y) 

MUL (X ^ Y"Z| 

MUL 

MUL M 

DIV |X - X/Y| 

DIV |X = Y/Z) 

DIV 

D1VM 




M e um cndereęo dc mcmória de 16 bits, e X, Ze Z sito cndcrcęos dc 16 bils ou regisiradorcs dc 4 bits. A 
maquina dc 0 cndereęo usa urna pilhu, a maquiua de I endereęo usa um acumulador e as oulras duas tern 16 
registradores e mstruęócs que operam sobrc lodas us combinaęócs dc localizaęócs dc mcmória e regisirado¬ 
rcs. SUB X,Y suhirai Z de X e SUB X.Y,Z sublrai Z dc Ke coloca o resullado cm X. Com opcodcs de 8 bits 
e comprimenios dc instruęAo nuilliplos dc 4 bits. quantos bits a maquina prccisa para calcular X! 

8. Flancjc um mecanismo de endereęamento quc pcrmila que um conjunto arliilnirio de 64 endereęos, nao 
necessariamcntc contfguos, cm um espaęo dc endereęo grandę, seja especilicavcl cm um campo de 6 bits. 

9. Cite urna desvantugcm de código automodificador que n3o foi mencionada no texto. 

10. Coiwertu as scguinles lórmulas de notaęao mfixa para nolaęao polonesa iiwerlida. 

a. A+BtC-f-D-Ji 

b. (A - B| X (C * D) + E 

c. (A X B)+ ((’ X D) + E 

d. (A B) x (((C D X E)/F)/G) X H 

11. Quuis dos scguinles pares de lórmulas cm nolaęao polonesa iiwerlida sao matcmaticamente equivalentes? 

a. Al)+C’ + eABCX + 

b. ABC cA BC - - 

c. ABxC+eABC+X 

12. Converta as scguinles lórmulas em notaęao polonesa invertida para notaęao infixa. 

«. AB C I D X 

b. A U /(’ I) / + 
o. A B C D E t X X / 

d. A B C D E X F /1 G H / X + 

13. Excreva trćs lórmulas cm notaęao polonesa invcrtida que ido podem ser convertidas para notaęao infixa. 

14. Converta as scguinles lórmulas booleanas cm notaęao inftxa para notaęao polonesa invertida. 

a. (AFB)ORC 

b. (AOR B)AND(AORC) 

c. (AEB)OR IfliD) 
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15. Converta a seguintc fórniula em notaęao infixa para notaęao polonesa inverlida e gcrc urn código IJVM para 
avalid-la. 

(532 1 7) 2 (4/2 I I) 

16. A instruęan em linguagem dc inontagem 
MOV REG.ADDR 

significa: carrcguc um rcgistrador com hase na memória no Pentium 4. Conludo. na UltraSPARC' III. para 
carregar um registrador da memória escrevemos 
LOAD ADDR.REG 

Por que a ordem dos opcnindos e diferenlc? 

17. Quanlo$ regislradores tern a maquina cujos formatos dc instruęóes siło dat los na Figura 5.19? 

18. Na Figura 5.19. o bit 23 6 usado para distinguir enlre a ulilizaęao do fonnuto I e do lormato 2. Nenhunt bit 
e fomecido para distinguir a ulilizaęao do formatu 3. Cotno o hardware sabc quando usd-lo? 

19. Em programaęao, ć comum que um programa precise determinar onde urna variiivcl X esta em relaęiio ao 
intervalo A a B. Se houvesse urna instruęao de tres endereęos disponfvel com os opernndos A. B e X. quan- 
los bits de código dc condięiio teriam de ser ajustados por essa instruęao? 

20. C) Pentium 4 tern um bil de código de condięao que monitora o vai-um do bit 3 após unia operaęHo aritmćti- 
ca. De quc serve isso? 

21 . A UltraSPARC III nflo tern instruęao para carregar um numeru de 32 bits em um registrador. Em vez disso. 
normalnienie e usada urna seqiieneia de duas instruęóes. SETHI e ADD. Hd mais de um imało dc carregar um 
numeru de 32 bits cm um registrador? Discuta sua resposta. 

22. Um de seus amigos irrompe em seu quarto fis 3 buras da manha, sem ffllego, para Ihc contar sua nova itlt?ia 
brilhantc: urna instruęao com dois opcodcs. VocS deve mandalo ao Cartório tle Registro de Patcntes ou dc 
volta a prancheta? 

23. O 8051 ndo tern instruęóes que diło deslocamcntos maiores do quc 8 bits. Isso significa que ele nao pode 
entlereęar memória acima dc 255? Caso positivo. como cle faz isso? 

24. Tcstcs da forma 

if (K =- 0)... 
if (a > b)... 
if (k < 5)... 

sao comuns em programaęao. Invcnte urna instruęiło para realizar esses lestes com eliciencia. Que campus 
estdo presentes em sua instruęao? 

25. Para o numeru bindrio de 16 bits 1001 0101 1100 0011, mostre o efeito de: 

a. Um dcslocamento de 4 bits para a direita com prcenchimento zero. 

b. Um deslocamento dc 4 bits para a direita com cxtensao de sinal 

c. Um deslocamento de 4 bits para a csquerda. 

d. Urna rolaędo dc 4 bits para a esqucrda. 

e. Urna rotaęao de 4 bits para a direita. 

26. Como voc6 pode limpar urna palavra de memória em urna memória quc nao tern nenhuma instruęao CLR? 

27. Calcule a exprcss3o booleana ( A AND B) OR C para 

A = 1101 (XXX) 1010 0011 
B = 1111 1111 0000 1111 
C - (XXX) (XXX) 0010 (XXX) 

28. Invenle um modo dc intercambiar duas variaveis A e B sem usar urna terceira variavel ou registrador. Dica: 
pense na instruęao EXCLUSIVE OR. 

29. Em um certo compulador. ć possfvcl niover um niimero dc um registrador para ouiro. tlcslocar cada um dclcs 
para a esquerda por diferentes quantidades c somar os resultados em menos tempo do que leva urna rnulti 
plicaęSo. Soli qual condięao essa seqU£ncia dc instruęao 6 lilii para calcular ‘constantc x variavel‘? 

30. Maquinas diferentes i6m densidades de instruęao diferentes (numeru de bytes retjuerido para.realizar um 
certo processo tle computaęao). Dados os seguinles fragmentos de código Java. trnduza catla um delcs em 
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linguagem ile monlagem Pentium 4, linguagem tle montagem UltraSPARC III c IJVM. Em seguida calcule 
quantos bytes cuda expressSo requer para cada mdijuinu. Considere que i ej san vari.1veis locais na memó- 
ria; porćtn. quanto uo mais, faęa as suposięóes inais otimistas cm todos os casos. 
u. i‘= 3; 

b !=j: . 

c.t=j I; 

31. As inslruęńes dc luęo discuiidas no tcxto eram para mauipulur laęos for. Invcntc urna instniędo que poderia 
ser lilii para manipular laęos while. 

32. Admilu quc os mougcs de Hanói possani movcr I disco por minuto (eles n3o ićm prcssa de lenninar o traba- 
Iho porque as oportunidades de cmprcgo para pcssoas que tern essa habilidade peculiar sao limitadas cm 
Hanói). Quaiilo tempo lcvara para eles resoKerein todo o problemu dos 64 discos? Hxpresse seu resultado 
cm anos. 

33. Por que os disposilivos de H/S colocam o vetor ile interrupęao no barramento? Seria posslvel armazenar 
aquela informaęao em urna tabela de memória? 

34. Um compulador usa DMA para ler de seu disco. O disco tern 64 setores de 512 by tcs por trilha. O tempo de 
rotaęao do disco e 16 ms. O barramento tern 16 bits de largura e transferfencias do barramento levam 500 ns 
cada. A instiuędo mćdia de CPU requer dois ciclos de barramento. De quanto ć o alraso causado pelo DMA? 

35. Por quc rot mus de interrupęao de servięo tein prioridades associadas a clas enquanto proccdimenlos nonnais 
nao tein prioridades? 

36. A arquiteturu IA-64 contem um grandę mimero de registradores (64), o que nao ć comum. A escolhu desse 
numeru tao grandę de registrudores esta relacionada com a utilizaęao de predicaęao? Se a respnsta for posi- 
tiva, como esiao rclacionados? Se a respostu for negaliva, porque ha tantos registradores? 

37. No tcxto e discutido o conceito de instruęfles cspeculativas LOAO. Contudo, nao lid nenhuina menęao de ins- 
truęóes especulativus STORĘ. Por que ndo? Klas sSo, em essencia, o mesmo que instruęoes especulativas 
LOAD nu ha unia outra ru/ao por que nao foram discuiidas? 

38. Quandn duus redes locais devem ser conectadus, um compulador denominudo ponie e inserido entre elas e 
conectudo a ambas. Cuda pucole transmilido em i|ualquer utną das redes causa urna interrupęao na pontc 
para permilir que ela veriftque se o pucote tern de ser repassado. Suponha que trular a interrupęao e inspe- 
cionar o pucote lcvc 250 ps por pacote, mus u iransmissao. se for necessaria, sera executada por hardware 
DMA sem sobrecarrcgar a CPU. Se todos os pucotes ticerem I KB, quul e a mdxinia taxa de dudos que pode 
ser loleradu ciii cada urna das redes sem causur perda de pucotcs pela pontc? 

39. Na Figura 5.32, o ponlciro de quadro aponta pura a primeira variavel local. Que infonnaęao o programu 
ncccssita paru retomar ęlc um procedimento? 

40. Escreva uma sub-rotina em linguagem de montagem para coiwerter um inteiro binario com sinal para ASCII. 

41 . I:screva uma sub-rotina em linguagem de montagem para converter uma fórmula infixa para notaęao polo- 
nesa imertnla. 

42. () Torres de Hanói nao 6 o unico pequeno procedimento recursivo muito apreciudo por cientislas da conipu- 
taęao. Um mitro favorito iinbativel e u!, onde»»! = n(n - I)! sujeito a condięao limitudora 01-1. Escreva 
um procedimento em sua linguagem de montagem fayorita para calculai n!. 

43. Se voce nao esliver convencido de que a recursao ć &s vezes indis[>ensdvel, tente programar o Torres dc 
Hanói sem usur recursao e sem simular u soluęao recursivu mantendo uma pilhu em um vetor. Porem, adver 
timos de unieinao que voce provavclmente nao conseguird achar a soluęao. 
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O tema desie livro ć quc um computador moderno ć consimfdo como uma sćrie dc nfveis, e cada um acrescenta funciona- 
iidade ao nfvel que osia abaixo dele. Atć agora vimos o nfvcl lógico digital, o nfvel dc microarquilctura e o nfvel dc arqui- 
tctura do conjunlo de instruęao. Agora chcgou a hora de passar para outro nfvel c entrar no reino do sisicma operacional. 
Um sistema operacional ć um programa (|«e. do ponto de vista do programador, acrescenta uma varie<ladc dc novas ins 
truęóes c caracleristicas, acirna c alćm do que o nfvel ISA fornece. Normalnienie, o sistema operacional ć implementado. em 
grandę parte, cm software, mas nio lid ncnhuma raziło teórica por que ele nao possa ser colocado em hardware, exatamente 
como acontccc com os microprogramas (quando csl3o prescnlcs). Para abieviar. denominaremós o nfvcl quc ele implcmenta 
nivel OSM (Operating System Machinę), ou seja. nfvcl de niaquitta de sistema operacional. mostrado na ł : igura 6,1. 


N(vel de mśqulna de sistema operacional 


Figura 8.1 

Posidonnmento do nivel 
de mśąuina de sistema 
operadonal._ 


Sistema operacional 


Nlyęl de arguitetura de con)unto de lnstruyao| 


Microprograma ou 


Nivel de microerguitetura 


F.mbora o nfvel OSM e o ofvel ISA sejmu ambos abstratos — no sentido dc que nao sao o rerdadcim nfvcl dc hardware —. 
hd uma importante diferenęa entre des. (J conjunto de instruęóes do nivel OSM ć o conjunto completo de instruędes disponf 
veis para programadores dc aplicaęao. Contćm quase todas as instruędes de nfvel ISA. hem como o conjunto de novas instru¬ 
ęóes que o sistema operacional adiciona. Essas novas instruędes sdo denoniinadas chamadas de sistema Uma chainada de 
sistema invoca um servięo predefinido do sistema operacional. na verdatle, uma de suas instruędes. Uma chamada dc sistema 
tfpica ć ler alguus dados de um arquivo. As chamadas de sistema serao impressas em Ictras mimisculas em fonte Helvćtica O 
nivcl OSM ć sempre interpretado, Quando um programa usudrio exccuta uma instruęao OSM. como ler alpuns dados de um 
arquivo, o sistema operacional executa essa instruęao passo a passo, do mesmo modo que um microprograma cxccutaria uma 
instruęao ADO passo a passo, Contudo. quando um programa executa uma instruęao de nfvel ISA. ela ć efetuada direiamente 
pelo nfvel dc microarquitetura subjacente. sem ncnhuma assisteneia do sistema operacional. 

Neste 1ivro poderemos oferecer apenas a mais breve das introduędes ao assunto de sistemas operacionais. Focalizarcmos 
trSs tópicos importantes: o primeiro e memória virtual, uma tćcnica fomccida por muitos sistemas operacionais modcmos para 
fazer com que a mńquina parcęa ter mais memória do que na realidadc tein. O segundo 6 E/S dc aiquivo, um conceito de nfvel 
mais alttt do que as inslruęóes dc E/S que esludamos no cnpflulo anterior. O terceiro tópico t? processamento paralelo como 
vdrios processos podem cxecutar, se comunicar e sineronizar. O conceito dc um processo ć importante e o descreveremos deta- 
Ihadamenle mais adiante neslc capitulo. Por cnquanto. podemos considcrar um processo como um programa cm execuę3o e 
lodas as suas informaęóes de esiadti (memória, registradores. contador de programa. esiado dc E/S e assim por dianie) Após 
discutir esses princfpios em termos gerais, mostraremos como eles sc aplicam aos sistemas operacionais ile duas de nossas 
mdquinas de cxemplo. o Pentium 4 (Windows XP) e a UltraSPARC III (UNIX). Uma vez que o 8051 nommlmente ć usudo em 
sistemas embutidos. ele nikt tern um sistema operacional. 
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6.1 Memória virtual 

Nu infciu du historia dos computadores, as meniórias emni pequenas e caras. O IBM 650, u lider dos compu- 
tadorcs cicnltflcos de sua ćpocu (tinal da dćeada de 19S0), tinhu soinente 2.000 paiavras dc memória. Urn dos pri- 
mciros cumpiladures ALGOL. 60 foi escrito para um compuladur que tinhu apenas 1.024 palavras dc memória. Um 
untigo sistema de tempo compurtilhado funcionava bastaule hem cm um PDP-1 com tamunho lotni de memória de 
apenas 4.096 paluvrus de 18 bits para o sistema operacional e programas usuarios combinados. Naiptela epoca o 
progrumudor gastava muito tempo tentando comprimir programas na minuscula memória. Muitas vezes era neces- 
sario usar um algoritmo cuja cxccuęAo era muito mais lenta do que u de um outro algoritmo melhor. simplesmenle 
poupie o algoritmo melhor era muito grandę — isto e. um programu quc o utili/asse nao poderia ser comprimido 
nu memória do computador. 

A soluęao irudiciouul para esse problemu era usar urną memória secundśria, como um disco. O programa- 
dor dividia o programu etn um certo ntimero de poręóes, denominadas sohreposięóes ( overlays), cudu urna das 
quais podia caber na memória. Para executar o programu, a primeira sobreposięao era trazida para u maquina e 
executavu durante um certo tempu. Quuudu terminava, liu u próxinta sobreposięao e u chumavu, e assint por diun¬ 
ie. O progrumudor eru rcsponsavet por fragmenlar o programu cm sobreposięóes, decidir em quc lugar du inetnó- 
ria secundiiria cada sohreposięAo seria mantida, resulvcr o trunsporte de sobreposięóes entre a memória princi- 
pul e a memória secundiiria e, em geral, gcrenciar todo o proccsso de sobreposięao sem nenhutn auxilio do 
computador. 

Kmbora tenha sido muito ulilizada durante unos, essa tćcnica envolvia muito trabalho paru o gercnciamento de 
sobreposięao. Em 1961, um grupo de pesquisadores em Manchester, Inglatcrra, propos um metodo para executar o 
proccsso de sobreposięao uulomaticamente, sem que o progrumudor soubesse o que es(ava acontecendo 
(Fotheringhain, 1961). Hsse metodo, agora denominado memória virtual, tinha a óbvia vantagem de livrar o pro- 
grumudor de grandę parte de utną irritante contabilidade. A memória virtual Ibi usada pela primeira vez em alguns 
computadores durante u riecudu dc 1960, a maioria deles ussociada com projetos de pesquisa na area de sistemas de 
computaęao. No inicio da dćcuda de 1970, a memória virtual ja estuva disponfvel na maioria dos computadores. 
Agora, atć computadores de um só chip, incluindo o Pentium 4 e a UltraSPARC 111, tSm sistemas de memória vir- 
tuul de altu solisticaęao. Vumos cxamin£-los mais adiunte neste capitulo. 

6.1.1 Paginaęao 

A ideia pro|K>sta pclo grupo de Manchester foi separar os conceitos de espaęo de endereęo c locali/aęóes de 
memória. Considere, como excmplo, um computador tfpico duquela epoca, que podena ter lido um campo de ende¬ 
reęo de 16 bits em suas instnięóes e 4.096 palavras de memória. Um programu nesse computador podia acessar 
65.536 palavras de memória. A ru/.An ć que existem 65.536 (216) endereęos de 16 bits, cada um correspondente a 
urna pulavra de inemóriu diferente. Notę que o ntimero de palavrus endereędveis depende somente do niimero de bits 
em um endereęo. e nSo csld relacionado, de modo algum, com o niimero de palavras de memória realnienie disponf- 

vel, O espaęo de endereęo para esse computador consiste nos ntimeros 0, I, 2.65.535, porque esse e o conjunto 

ile possfveis endereęos. Contudo, o computador pode perfeitamente ter menos do que 65.535 paluvras de memória. 

Antes da imcnęńo tla memória virtuui, as pessoas fu/.iam unia dislinęao entre os endereęos abaixo de 4.096 e 
os igtiais ou acima de 4.096. Emlioru raramente espresso em pulavras, essas duas partes eram considenidas como o 
espaęo dc endereęo litil e o espaęo de endereęo iniitil, respectivamcnte (os endereęos acima de 4.095 eram inuteis 
porque nao corres|Hmdiani a endereęos de memória propriamente ditos). As pessoas nao fazium dislinęao entre espa¬ 
ęo de endereęo e endereęos de memória porquc o hardware impunhu unia correspondćncia um pura um entre eles. 

A ideia de separar o espuęo de endereęo e os endereęos de memória ć a seguinte. Em qualquer instunte, 4.096 
palavras de inemóriu podem ser uccssadas diretamente, mus elas niio precisam corresponder u endereęos de inemó- 
ria 0 u 4.095. Por exemplo, poderfamos ‘dizer’ ao computador que, dali em dianie, sempre que o endereęo 4.096 
fosse referenciado, a palavra de memória no endereęo 0 deveria ser usada; sempre que o endereęo 4.097 fosse refe- 
rcnciudo, a palavra de memória no endereęo 1 devcriu ser usada; sempre que o endereęo 8.191 fosse referenciado, 
u pulavru de memória no endereęo 4.095 deveria ser usada e assim por diunie. Em outras paluvras, deflnimos um 
mapeamento do espaęo de endereęo para endereęos dc memória propriamente ditos, como mostra a Figura 6.2. 

Em termos desse quailro de mupcur endereęos do espaęo de endereęo para locali/aęóes de memória propria¬ 
mente dilus, urna niaquina de4 KB sem memória virluai simplesmenle tern um mapeamento fixo entre os endereęos 
0 a 4095 e as 4.096 pulavras de memória. Urna perguntu interessantc ć; "O que acontccc se um programa desviar 

Fiyura H 2 

Mapeamento no qual 
endereęos virtuais 4.096 
a 8.191 sao mapeados 
para endereęos da 
memóiia pnnctpal 
0 a 4.095 


Endereęo 
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para um endereęo enlre 8.192 e 12.2877". Sc a mdquina n3o tiver memória virtual. o programa causaria uma excc- 
V3o que imprimiria uma mensagcm adequadamente rude. por exemplo: “Memória referenciada n3o existentc.". e 
cncerraria o programa. Se a maquina tiver memória virtual, ocorreria a scguinle seqtiencia dc etapas: 

1. O contcudo da memória principal seria salvo em disco. 

2 . Palavras 8.192 a 12.287 scriam localizadas no disco. 

3. Paluvras 8.192 a 12.287 seriam carregadas para a memória principal. 

4. O mapa de endereęos seria alterado para mapear endereęos 8.192 a 12.287 para loealizaęócs de menió- 
ria 0 a 4.095. 

s. A execuęao continuaria como sc nada de incomum tivesse acontecido. 

Hssa tecnica de sobreposiędo aulomalica e denominada paginaęao e os trechos de programa lidos do disco sao 
denominados pdginas. 

Tambem i possfvel um modo mais sofisticado de mapear endereęos do espaęo de endereęo para endereęos de 
memória propriamente ditos. Por quesliio de enfasc, denominarentos os endereęos que o programa pode referenciar 
como espaęo de endereęn virtual. e os endereęos dc memória ligados (ffsicos) propriamcnle ditos como espaęo 
de endereęo fTsico. Um mapa de memória ou tabela de pdginas cspccifica o endereęo ffsico correspondcnle para 
cada endereęo virtual. Admitiremos que ba espaęo suficicnlc em disco para armazenar lodo o espaęo de endereęo 
virlual, ou. ao menos, a porędo dele que estd sendo usada. 

Programas sao escritos como se houvesse memória principal suficiente para todo o espaęo de endereęo virtual. 
ainda quc nao seja esse o caso. Programas podem ler de qtialquer palavra do espaęo de endereęo virtual, ou arma 
zenar em qualquer palavra do espaęo de endereęo virtual, ou desviar para qualquer instruęao localizada em qual- 
qucr lugar denlro do espaęo de endereęo virtual. sem se preocupar coin o Tato de que. na realidade, n8o ha suficien- 
te memória fisica. Dc falo. o prograinador pode escrever programas sem nem mesmo estar cienie de que a memória 
virtual existe. O computador apenas parece ter uma grandę memória. 

Esse ponto ć crucial e serii comparado mais adianle com a segmentaęao. na qual o programador deve estar 
cienie da exisl€ncia de segmentos. Mais uma vez. por qucstdo de enfase, a paginaęao dii ao programador a ilusao 
de uma memória principal linear grandę, continua, do mesmo tamanho do espaęo de endereęo virtual. Na realida¬ 
de, a memória principal disponivel pode ser menor (ou maior) do que o espaęo de endereęo virtual. A simulaęao 
dessa grandę memória principal por paginaęao nSo pode ser detectada pelo programa (exceto pela exccnęao dc tes- 
tes de temporizaęao). Sempre quc um endereęo for referenciado, a instruęao ou a palavra de dados adequada pare¬ 
ce estar presente. Como o programador pode programar como se a paginaęao naQ existisse. diz-se que o mecanis- 
mo de paginaęao e transparente. 

Afinal, a idóia de que um programador pode usar algumas caracterislicas nao existentes sem se preocupar 
como clas funcionam nao e novidade para nós. O conjunto de instruęao de nivel ISA muitas vezes inclui uma ins- 
Iruęao MUL, ainda que a microarquitetura subjacente niio tenha um dispositivo de multiplieaęuo no hardware. A ilu¬ 
sao de que a mdquina pode multiplicar costuma ser sustentada por microcódigo. De modo semelhante. a maquina 
virtual fornecida pelo sistema opcracional pode dar a ilusao dc que todos os endereęos virtuais sdo sustentados por 
memória rcal, ainda que isso niio seja verdadc. Somente escritores de sistema operacional (e estudantes de sistemas 
operaciouais) t§m dc saber como a ilusao ć suportada. 


6.1.2 Implementaęao de paginaęao 

Um requisito essencial para uma memória virtual ć um disco no qual guardar todo o programa e todos os 
dados. Em termos conceiluais, ć mais simples considerar a cópia do programa que esta no disco como o programa 
original e as poręóes trazidas para a memória principal de vez em quando como cópias, em vez do contrario. 
Naturalmente, e importante manter o original atualizado. Quando sao feitas alteraęócs na cópia que esta na memó¬ 
ria principal. elas tambćm tSm de ser refletidas no original (em sen devido tempo). 

O espaęo de endereęo virtual ć desmembrado em varias pdginas do mesmo tamanho. No momentu sao comuns 
tamanhos de pdginas na faixa de 512 a 64 KB por pdgina. embora tamanhos de atd 4 MB sęjam usados ocasional- 
mente. O espaęo de endereęo ffsico tambem ć desmembrado em poręóes de modo semelhante e cada poręilo ć do 
mesmo tamanho dc uma pdgina. de modo que cada porędo da memória principal <5 capaz de contcr exatamenle uma 
pdgina. Essas poręóes dc memória principal para onde vao as pdginas siio denominadas quadros de pdgina. Na 
Figura 6.2 a memória principal contćm somente um quadro de pdgina. Na prdtica. os projetos usualmentc contem 
milhares delas. 

A Figura 6.3(a) iluslra urn modo poss(vcl de dividir os primciros 64 KB dc um espaęo de endereęo virtual 
— em pdginas de 4 KB. Notę que, nesle caso. estamos falando de 64 KB e 4 K de endereęos Um endereęo pode- 
ria ser um byle. mas tambćm poderia perfcitamcnle ser uma palavra em um computador no qual palavras conse 
cutivas tivessein endereęos consecutivos. A memória virtual da Figura 6.3 seria implementnda por meio de uma 
tabela de pdginas com lantas entradas quantas fossem as pdginas no espaęo de endereęo virtual. Aqui. por sim- 
plicidade, mostramos somente as primeiras 16 entradas. Quando o programa tenta referenciar uma palavra nos 
primeiros 64 KB de seu espaęo de endereęo virtual. seja para buscar instruęóes. seja para buscar dados ou arma¬ 
zenar dados, em primeiro lugar ele gera um endereęo s irlual entre 0 e 65.532 (admitindo que endereęos de pala- 
vra devem ser divis(veis por 4). Indesaęao. endereęamenlo indireto e todas as tćcnicas usuais podem ser usadas 
para gerar esse endereęo. 
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A Figura 6.3(b) mostru lima memória lisica que consisto em oilo quadros de pdgina de 4 KII. Essa memória 
poderia ser limitadu a 32 KB porque (I) isso ć tudo que a mdquina linha (urn processador embmido em urna mdqui- 
na de lavar ou em mu forno ile microondas poderia ndo prccisur de mais), ou (2) o resto da memória foi alocado a 
outros programas. 

Agora, considerc como um eadercęo virtual de 32 hils pode ser mapeado para urn endereęo ffsico de memória 
principal. Afinal, a unica coisa que u memória cntcndc sdo cndereęos de memória principal, c nao endereęos viriuuis. 
poitanio sao aqueles quc Ihe devem ser dados. Todo computador com memória virtuul tern um disposilivn para fa/er 
o mapcainenlo virtu,il |tura lisico, Iisse disposilmi i denominado MML' (Mentor) Management Luli — unidade 
de gerenciainento de mentóriu'|. Ela pode estar no chip da CPU, ou em um chip separado que funciona em estrcita 
relaęao com o chip da CPU. Uma vez que nosso exeinplo de MMU mapeiu de um endereęo virtual de 32 hils para 
um endereęo lisico dc 15 hils, cle precisa de um regislrador de entrada de 32 hils e um regislrador de salda de 15 hils. 

Paru ver como a MMU funciona, considere o exemplo da Figura 6.4. Quando um endereęo vinual de 32 hils 
i apresentudo a MMU. ela separa o endereęo em um mimero de piigina virtual de 20 bils e em um deslocamento de 
12 hils deniro da pagina. porque as piiginas de nosso exemplo sao de 4 K. O mimero de piigina yirtual e usado como 
um indice para a tahelu de paginas a lim de achar a entrada para a pagina referenciada. Na Figura 6.4, o mimero de 
pagina virtual e 3. portanto e selecionada a entrada 3 da tabela de paginas, como moslra u ligura. 

A primcira coisa que u MMU faz com a entrada de tabela de pagina ć writicar para ver se a pagina referen¬ 
ciada esta nu memória principal no momento em qucstao. Alinal, com 2 20 paginas virtuais e somente oito ąuadros 
de piigina, nem todas as piiginas virtuais podern estar na memória ao mesmo tempo. A MMU fuz essa verificaętlo 
examinando o bit presente/uusente na entrada da tabela de piiginas. Em nosso excmplo. o bil e I, o quc significa 
que u pagina estii na memória no momento em questao. 

A próximu etapu i pegar o valor do quadro de pdgina da entrada selecionada (6 nesse caso) e copia-lo paru os 
trfis bils superiores do regislrador de salda de 15 bits. S3o necessdrios tres bils porque lui oilo quadros de pagina nu 
memória ffsica. Em paralelo u essa operaędo, os 12 bits incnos signiftcalivos do endereęo virtual (o campo de des- 
locamento da piigina) sao copiudos para os 12 bits de ordem baixa do regislrador dc salda, como mostra a figura. 
Esse endereęo de 15 bits ugoru ć em iado paru a cuchę ou para a memória, para consullu. 

A Figura 6.5 mostru um possfvel mapeamento enlrc paginas yirtuais e quudms de paginas ftsicas. A pagina 
virtua! 0 esta no quadru de pagina I. A pagina virtual I esta no quadro de piigina (I. A pagina \ irtual 2 nao esta nu 
memória principal. \ pagina yirtual 3 esta no quadro de pagina 2. A pagina virtual 4 nao esta na memória princi¬ 
pal. A pagina virtuu! 5 esui no quadro dc pagina 6 c assitn por dianie. 

6.1.3 Paginaęao por demanda e o modelo de conjunto de trabalho 

Nu discussao unterior udmitiinos que a piigina yirtual referenciada estava na memória principal. Coniudo, essa 
suposię3o nem sempre serii verdadeira, porque nao lui espaęo suliciente na memória principal para todas as paginas 
yirtuais. Quando e leilu urna referencja a um endereęo em uma piigina que nao csi3 presente na memória principal, 
ela e denominada falta de piigina. Após ocorrer uma falta de piigina, 6 necessdrio que o sistema operacional leia a 
pagina requeridu do disco, registre suu nova localizaęao na memória flsica na tabela de pdgina e entao repita a ins 
truęao que causou u lullta. 
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{i poss(vel iniciar um pmgrama que cnecutu eni uma móquina com memória virtual mesmo qunndo nao hou- 
ver nada do prograrna na memória principal. Basta ajustar a tabela de pjginas para indicar que lodas e quaisqucr 
pdginas virtuais cstao na memória sccunddria, e nao na memória principal. Quando a CPU tcnta buscar a primcira 




instruęao. ohtem imcdiulumcnte uma talia de pagina. o que la/ com que a piigina que etanem a primeira instruęao 
seja carregada na memória e regiMrada na labela de pagina. F.ntdo, a primeira instruęao pode comeęar. Se a primei 
ra instruęai) liver dots endereęos, e os dois endereęos esliverem em paginas difenenies, e ambas forem diferentes da 
piigina da instruęao, ocorrenio niuis duas faltas de pdginas e mais duas paginas scrfio tra/.idas antes que a instruęao 
possa, por firn, cxecutar. A próxima instruęao pode causar mais algumas faltas de piiginas e assim por diante. 

Esse metodo de operni uma memória virtual e denominado paginaęno por dcmanda, por analogia com o 
eonhceido algorilmo de alimentaędo de bebes por demanflu: quando o bebe chora, vocć o alimenta (ao contrdrio de 
alimentd-lo segundo urn esqueinn rigido). Em puginuędo por dentanda as paginas sao Lra/idas paru a memória 
somente quando ocorre uma rcquisiędo de umu pagina, e nao antecipudumente. 

A questao tle tisur ou nao paginaęao por demanda só e relevante quundo um programu for iniciado pcla pri¬ 
meira ve/. Assim quc elc esteja executando por ulgunt tempo, as paginas neccssarias ja terao sitlo eoletadus nu 
memória prineipal. Se o computudor eompartilhar tempo e os processos forem pennutados após HK) ms de execu 
ęao ou por al. cuda programu serii reiniciuli/ado muitas ve/es durante o eurso de suu cxccuęao. Como o mapa de 
memória i exclusivo de cuda programu e e trocado tjuando os programas sao trocadns, por exemplo, em um siste- 
ma de tempo cotnpartilhudo, freqUentemente a ijuestao se tomu crfticn. 

A abordagem alternativa 6 baseadu na observaędo de que grandę parte dos prograntas mlo referencia seu espa- 
ęo de endereęo uniformemcnte, mas as referfincias tcndem u se uglonterar em um numeru pequeno de piiginas. Esse 
conceito e denominado prindpiu da localidade. Uma referencia a memória pode buscur uma instruęao, pode bus- 
ear dados ou pode arma/enar dados. A qualquer instante t existe um eonjunto que eonsiste em todas as piiginas usa- 
dus pelas k. refcr£ncias mais recentes ii memória. Dcnning (1968) denonunou isso conjimti) de trabalho. 

Como o eonjunto de trabalho normalnienie varia lentamente eom o tempo, e possivel fa/er uma previsao razod- 
vcl de quais paginas serao necessdrias ijuando o programu for reiniciado, eom buse em seu eonjunto de trabalho na 
ncusiao em quc foi interrompido da ultima vez. F.ntdo, essas piiginas poderiam ser carregutlas untceipudamente antes 
de iniciar o programu (atlmilindo que elas caibam). 

6.1.4 Politica de substituięao de pagina 

O ideał ć que o eonjunto de piiginas que o programu usa muito c ativamente, denominado ctmjunlo de trabu- 
Iho, possa ser ntuntido na memória para redu/ir a fallu de piiginas. Contudo, 6 raro que os prognunadores saibatn 
tpiais piiginas estao no eonjunto de trabalho, portanto o sisteinu operueiouai tern de dcscobrir esse eonjunto (linami 
camente. Quando um programu referencia uma pdginu que udo estd na memória prineipal, u piigina soliciladu devc 
ser buscada no disco Todu\ iu. paru Ihc ubrir cspaęo, em gcrul algumu outra pagina leni de ser dcvolvida ao disco. 
Fortunni, precisamos tle um algorilmo que decida quul piigina deve ser removidu. 

Eseolher uleutoriamentc umu pdgiua para reinover provavelmente nao ć umu boa idćia. Se, por acaso, u 
pagina que coiitem a insimędu faltante for a eseolhidu, ocorrerd uma outra falla de pdgiua tao logo seja feilu 
umu teutativa de buscur a prósitna instruęao. Grandę parte dos sistemas operacionais lenta preverqual das pdgi 
nas na memória £ u menns tilil no sentido de que suu uuseneia eausaria o menor efeito udverso possfvel sobre 
o programu em esecuędo. Um modo de fa/er isso i prever quando ocorrerd a próximu referencia a cada pdginu 
e remover a pdgiua ..uju próxiinu referencia prevista esliver no futuro mais longfnquo. Em outras palavras, em 
vez de extrair uma piigina que serd neeessdria em breve, tenta-se selecionar uma que udo sera necessdria por um 
longo tempo. 

Um ulgoritmi) popular extrai a pdginu menos rcecnlcmente usadu porque e altu a probubilitlade a priori de ela 
nao estar no eonjunto de trabalho corrente. Ele i denominado algoritmo LRli (I.easl Recently Used — menos 
recentemenłe usada) e, emboru normalmente funeione hem, ha siluaęóes patológieus, como as deseritas a seguir, 
nas quais o LRU fallia miseravelmente. 

Imaginc um programu quc esteja execulando um grandę laęo quc se estende por nove paginas virtuais em uma 
mdquina que tern espaęo para apenus oito paginas na memória ffsiea. Após o programu ehegar nu pagina 7, a memó¬ 
ria prineipal estard como mostra a Figura 6.6(a). Em dudo instante ć feita uma tcntativa paru buscar uma instruęao 
na pdgina virtual 8. o que causa uma falla de pagina. E preciso decidir qual pdgiua deve ser cxtrufda. O algoritmo 
l.RU eseolherd u pdginu virtuul 0, porque foi a menos recentemeutc usada. A pdgina virtual (I e removida e a pdgi 
nu virtual 8 e tru/idu paru substitui-lu, resullando na situaędo mostrada na Figura 6.6(b). 

Após exeeutur a> insiruęócs na pdgina virtual 8, o programu desvia de volta para o infcio do laęo. para u pdgina 
\ irtual 0. Essa etapa causa outra falla de pdgina. A pdginu virtual 0, que acabou de ser exlraida. tern de ser tra/.ida 
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ile volta. (.) algorilmo I.RII escolhe a pdgina I para ser retirada, o i|ue produz a situnęSn na Figura 6.6(c). O progra¬ 
mu continua na pdgina 0 por algtins instanlcs e enlao lenta buscar urna instruę3o na pdgina virtual I. causando unia 
falta de pdgina. A pdgina 1 leni de ser Irazida de volta mais urna vez e a pdgina 2 scrd extrafda. 

A essa altura jd deve estar evidenle que. nestc caso. o algorilmo LRU estd claramente fazendo a piór escolha 
toda vez (outros algoritmos tambćm falhain sob condięóes similares). Contudo, sc o tamanho da memória principal 
disponfvel for niaior do que o do conjunto de trabalho, o LRU tende a minimizar o numero dc faltas de pdgina. 

Um outro algorilmo de subslituiędo de pdgina ć o FIFO (Flrst-In First-Out — priim iro(a) a entrar. pri- 
meiro(a) a sair). O FIFO remove a pdgina menos recentemente carregada, independcntc de quando essa pdgina foi 
rcferenciada pela ultima vez. Hd um contador associado a cada quadro de pdgina e, de infcin. todos os contadores 
estao ajustados em 0. Após cada falta de pdgina ter sido tratada, o contador de cada pdgina que se encontra na 
memória no tnomenlo em quest3o e aumentado de um, e o contador da pdgina que acabou de ser trazida e ąjustado 
em 0. Quando se toma necessdrio escolher urna pagina para reinover, a pdgina cujo contador estiver mais alto ć a 
escolhida. Urna vez que seu contador 6 o mais alto, essa pdgina testemunhou o maior numero de faltas de pdgina. 
Isso significa que ela foi carregada na memória antes de qualquer urna das outras pdginas e. portanto (esperamos), 
tern a maior chance a priori de nao ser mais necessdria. • 

Se o conjunto de trabalho for maior do que o numero de quadros dc pdgina disponfveis, ncnhum algorilmo 
dard bons resultados, a menos que seja um oraculo, e as faltas de pdginas serilo freqilentes. Quando um programa 
gera faltas de pdginas coni frcqtiencia e continuamente, diz-se que cle estd fazendo paginaędo excessiva (tliras 
liing). Nem e preciso dizer que a paginaędo exccssiva 6 urna caracterfstica indcsejdvcl em sen sistema. Se um pro- 
grama usar urna grandę quanlidade de espaęo de endcrcęo virtuai. mus tiver um conjunto de trabalho pequcno, que 
muda lentamente e cabc na memória principal disponfvel, ele dard poucos problemas. Essa ohservaę3o <? verdadei 
ra ainda que, no decorrer de sua vida util, o programa use um numero de palavras de memória virtual ccntenas de 
vezes maior do que o numero de palavras de memória principal da mdquina. 

Se unia pdgina que estd prestes a ser cxtrafda nao tiver sido inodilicada desde quc foi lida (urna ocorrSncia 
provdvel se a pdgina contiver programa em vez dc dados). nao e necessdrio escrev€-la de colta no disco. porque 
ali jd existe urna cópia exata. Se ela foi modificada desde que foi lida, a cópia que estd no disco ti3o’ć mais exata 
e a pdgina dcve ser reescrita. 

Se houver um meio de saber se a pagina nao mudou desde que foi lida (pdgina estd limpa), ou se, na cerdade, 
algo foi armazenado nela (pdgina estd suja), pode-se evitar que todas as pdginas limpas sejam reescritas. o que 
poupa muilo tempo. Muitos computadores tern I bit por pdgina na MMU. que estd ajuslado para 0 quando a pdgi¬ 
na € carregada e ajuslada para I pelo microprogrania ou hardware sempre que nela houver uni armazenamenio, isto 
e, sempre que ela ficar suja. Examinando esse bit, o sistema operacional pode descobrir se a pdgina estd limpa ou 
suja e, por eonseguinle, se e preciso reescreve-la ou nao. 

6.1.5 Tamanho de pagina e fragmentaęao 

Se por acaso acontecer de o programa e os dados do usudrio preencherem exatatnente um numero inteiro de 
pdginas. nSo Itacerd nenhum espaęo desperdięado quamlo eles estivcrem na memória Se, por outro lado. eles nao 
preencherem exatamente um numero inteiro de pdginas. havcrd algum espaęo nilo utilizado na ultima pdgina. Por 
exemplo, se o programa e os dados precisarem de 26.000 bytes em unia mdquina coni 4.096 liytes por pdgina, as 
primeiras seis pdginas estarao chcias. totalizando 6 X 4.096 = 24.576 bytes, e a ultima pdgina conterd 26.000 
24.576 = 1.424 bytes. Urna vez. que hd espaęo para 4.096 bytes por pdgina, 2.672 bytes serio desperdięados. 
Sempre que a sótima pdgina esliver presente na memória, esses bytes ocuparao memória principal. mas nao servi- 
rao para nenhuma funęao dlii. O problema desses bytes desperdięados e denoniinado fragmentaęao interna (por 
que o espaęo desperdięado e interno a alguma pdgina). 

Se o tamanho da pdgina for n bytes. a quantidade media de espaęo desperdięado na ultima pdgina dc um pro- 
grama por fragmentaęao interna serd n/l bytes — unia situaęao que sugere usar um tamanho de pdgina pequeno para 
minimizar desperdlcio. Por outro lado, uma pdgina de tamanho pequeno significa muitas pdginas, hem como unia 
grandę tabela de pdginas. Se a tabela de pdginas for niantida eni hardware, uma grandę tabela de pdginas significa 
quc scrd preciso mais registradores para armazend-la, o quc aumenta o custo do cnmputador. Alem disso, scrd prcci- 
so mais tempo para carregar e salvai - esses registradores sempre que um programa for iniciado ou interrompido. 

Alćm do mais, pdginas pequenas fazem uso inclicicnte da largura de banda do disco. Dado que vamos espe- 
rar aproximadamente 10 ms antes que a transferencia possa comeęar (busca + atraso rotacional), grandes transfe- 
rcncias s3o mais eficientes do que pequenas. Com uma laxa de transfer6ncia de 10 MB/s. transferir 8 KB adiciona 
somente 0,7 ms em comparaę3o com transferir I KB. 

Todavia, pdginas pequenas tambćm tćni a vantagem de, se o conjunto de trabalho consistir em um grandę 
numero dc regiócs pequenas e separadas no espaęo de endereęo virtual, possibilitar menos aeessos ao disco (thras- 
hing) com unia pdgina de tamanho pcqueno do que com uma de tamanho grandę. Por exemp!o. considere uma 
inatriz 10.000 X 10.000, A, annazenada com A [1,11, A (2,1 ], A (3,11 e assim por diantc, cni palasras consccutivas 
de 8 bytes. Esse armazenamenio ordenado por coluna significa que os elemenlos ile linha I. A | 1.11. A 11.2], A [ 1.3], 
e assim por diantc, comcęarilo coni 80.000 bytes de scparaęao. Um programa que esleja efetuando um cdlculo 
extensivo com todos os elemenlos dessa linha usaria 10.000 regióes, cada uma separada da próxima por 79.992 
bytes. Sc o tamanho de pdgina fosse 8 KB. seria necessdrio um amiazenainento total de 80 MB para conter todas 
as pdginas que estao sendo usadas. 



Por outro lado. urn lamunho de pagina de 1 KB cxigińa somente 10 MB de RAM paru conter todas as pdgi- 
nas. Se a inemóna disponfvel fosse M MB. com um tamanho de pagina de 8 KB. o programu taria paginaęao exces- 
siva, mas com um tamanho de pdgina de I KB isso nao Aconteceria. Considerando lodos os aspectos, a tendencia 
favorece paginus de lumunhos maiores. 

6.1.6 Segmentaęao 

A mcmdria virtual discutida anteriormente e unidimensional porque os endereęos virtuais v3o de 0 nić algum 
endereęo mdximo, um endereęo upós o outro. Ild muilos problemus para os i|uais poderin ser melhor ter dois ou 
muis espaęos de endereęo vinual separados do que ter só um. Por exemplo, um compilador pode ter muitas tabelas 
quc sao montudas a inedida que a compilaęao prossegue; entre elas: 

1. A tabela de smibulos, que contem os nomes e atrihutos dc varidveis. 

2 . O texto-fonte que estu sendo salvo para a listagem impressa. 

3. Unia tabela que contem todas as constantes inteiras e de ponto llutuante usadas. 

4. A śrvore de undlise (parse) quc contem a amilise sintdtica do programu. 

s. A pilliu usada para chamadas de procedimento dentro do compilador. 

Cuda urna das ijualro printeiras tabelas cresce continuamente a medida que a compilaęao prossegue. A ultima 
aumcnta e diminui de modo imprevisfvel durante a compilaęao. Em urna memória unidimensional. essas cinco tabe¬ 
las teriam de ser ulocadas como poręóes contiguus de espaęo de endereęo virtual, como nu Figuru 6.7. 

Considere o que acontece se um programu tiver um nurnero excepcionalmenle grandę de variaveis. A poręao 
de espaęo de endereęo ulocudu para a tabela de simbolos poderia ser totalmente preencbida mesmo que houvesse 
muito espaęo disponivel cm outras tabelas. E daro que o compilador poderia simplesmentc cmitir urna inensagem 
di/endo que a compilaęao nao pode continuar porque ba demasiadas variśvcis, mas isso n&o parece muito justo 
quutulo h<i espaęo nao ulilizudo nas outras tubelas. 

lima outra possibilidade e o compilador se fazer de Robin Hood, lomundo espaęo dus tabelas que tern 
muito, e dundo o iis tabelas quc'tem pouco espaęo. Essas mudanęas pudem ser feitus, mas e o mesmo quc adnti- 
nistrar nossas própiias sobreposięfles — um uborrecimento nu melhor das hipótescs e um trabalho tedioso e mai 
recompensado nu piór delus. 

O que realnienie preeisamos ć um modo de livrur o programador da obrigaędo de gerenciur a expansSo e 
coiitraęao de tabelas. do mesmo modo que u memória yirtuul eliminu u preocupaęao de organizor o programu 
em sobreposięóes. 

Urna soluęao duetu e iomecer muilos espaęos de endereęo cumpletamenle independcnles. denominudos seg 
mentos. C uda segmentu consiste em urna seqUćncia linear de endereęos. de 0 alć algum iniiximo. O comprimenlo 
de cuda segmentu pode ser qualquer coisa desde 0 atć o masimo permitido. Diferentes segmentos pudem ter, e cos- 
tumam ter, comprimentos diferentes. Alćm do mais, comprimenlos de segmentos [rodem mudur durante a execuęao. 
O comprimenlo de um segmentu de pilhu pode ser uunientudo scntpre que algo tor passudo paru clu e redu/.ido sent- 
pre que algo for dela ret i rudo. 

Como cada segmentu conslitui um espaęo de endereęo separado, diferentes segmentos pudem se expandir ou 
encolher independenlemente, sem que um afete o outro. Se urna pilha em um certo segmento precisar de mais 
espaęo de endereęo para crcscer, pode conscgui-lo, porquc nao hd nada mais em seu espaęo de endereęo com o 
qual ela possa se chocar. E ciuro que um segmentu pode ser prccnchido completamenie, mus eles cosiuinam ser 
muito grandes, portuntn essa ocorrćncia e rara. Para especificar um endereęo nessa memória segntentada ou bidi- 
mensional. o programu deve lornecer um endereęo de duas partes: um numeru de segmento e um endereęo dentro 
do segmento. A Figura 6.8 ilustra urna memória segntentada quc esta sendo usada para as tabelas de compilador 
quc discutimos unieś. 

Destacamos quc um segmento ć urna entidade ló^ka. da qual o programador estd cienie e a qual usu como 
urna entidade lógicu tinicu. Um segmento poderia conter um piocedimento, ou um vetor, ou umu pilha, ou um con- 
junto de variaveis cscalarcs, mus, em gerul, nao contem umu mistura de tipos diferentes. 


Figura B.7 

Em um espaęo de 
endeieęo unidimensional 
com tabelas que 
aumentam, urna tabela 
pode encosiat em outta. 


Espaęo de endereęo yirtual 



Espaęo du endereęo 
alocado A pilha 
de chamadas 
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Uma memória segmentada 
permite que cada tabela 
cresęa e encolha 
independentemente das 
outias tabelas. 



Uma memória segmentada tern outras vantagens alćm cle simpliftcar o manuseio cle estnituras de dados que 
podem aumentar e encolher. Sc cada procedimento ocupar urn scgmento separado, tendo endereęo 0 como seu 
endereęo inicial. a interconexao dc procedimentos compilados cm separado 6 muito simplificada. Depois que 
todos os procedimentos quc constituem urn programa foram compilados e interconectados, uma chamada de pro- 
cedimento para o procedimento que estd no scgmento ii usard o endereęo cle diias partes f/i , 0) para endereęar a 
palavra 0 (o ponto de entrada). 

Se. na scq(l£ncia, o procedimento no segmento ii for tnodificado e recompilado, nenhum outro procedimen¬ 
to precisard ser alterado (porque nenhum endereęo de infcio foi niodificado). rnesmo que a nova vers3o seja niaior 
do quc a antiga. Com uma memória unidimcnsional. os procedimentos normalmcntc sao empacotados bem aper- 
tados, urn ao lado do outro. sem nenhum espaęo de endereęo entre eles. Por conseqtlencia, alterar o tamanho dc 
um procedimento pode afetar o endereęo de infcio de outros procedimentos n5o relacionados. Isso, por sua ver. 
requer modilicar todos os procedimentos que chamam qualqucr um dos procedimentos que foram movidos. de 
modo a incorporar scus novos endereęos de infcio. Se um programa contiver centenas de procedimentos, esse pro- 
cesso pode ser custoso. 

A segmentaęao tambem facilita compartilhar procedimentos ou dados entre vórios programas. Se um compu 
tador tiver vńrios programas executando ern paralelo (seja processamento paralelo verdadeiro ou simulado) e todos 
usarcm certos procedimentos de biblioteca. e dcsperdfcio de memória principal fomeccr a c ada um lleles uma cópia 
particular. Alocando cada procedimento em um segmento separado eles podem ser compartilhados com facilidade. 
o que climina a ncccssidade de ter mais de uma cópia ffsica dc qtm!quer procedimento compartilhado na memória 
principal. O rcsultado ć quc se poupa memória. 

Como cada segmento forma uma entidade lógica da qual o programador estii cienie, tal como urn procedimen¬ 
to. ou um vctor, ou uma pilha. segmentos diferentes podem ter diferentes tipos de protcęio. Um scgmento dc pro 
cedimcnto poderia ser cspecificado como somente de cxccuęflo. proibindo tentativas de leitura ou de escrita. Um 
vetor de ponto flutuante poderia ser especilicado como de leitura/escrita, mas nilo dc execuęSo. e. assim. tentatiras 
dc desvio para ele seriarn pegas. Essa proteęSo niuitas vezes ć Otil para idcntificar erros de programnęao. 

1 1 bom que voefi entenda por que a proteęSo faz senlido em uma memória segmentada. mas nao em uma memó¬ 
ria unidimensional, isto ć, linear. Em uma memória segmentada o usmirio estii cienie do que existe em cada seg 
meuto. Por excmplo. um segmento normalnienie nao contcria um procedimento c uma pilha. mas um ou o outro. 
Uma vez que cada segmento contem somente um tipo de objęto, o segmento pode ter a proteęao adcquada para 
arpiclc tipo particular. Paginaęao e segmentaęao s5o cornparadas na Tabela 6.1T 

Em certo sentido. o conteudo dc uma pagina ć acidental. O programador nem mesmo estii cienie do falo de 
que estii ocorrendo paginaęao. Entbora fosse possfvcl colocar alguns bits cm cada entradii dii tabela de piiginas pani 
especificar o accsso permitido, para utilizar essa caractcrfstica o programador teria de monitorar cm que lugar de 
seu espaęo de endereęo estariam as fronleiras das paginas. O problemu dessa idćia e quc a paginaęiio foi imentada 
exatamente para climinar esse tipo de adniinistraęao. Como o usuiirio de uma memória segmentada tein a ilusiio de 
quc todos os segmentos estao na memória principal o tempo lodo, esses segmentos podem ser endereęados scni quc 
ele. o usmirio. tenha dc se preocupar com a administraęiio da eventual sobreposięao dc segmentos. 


Tadnia 6.1 Comparaęao entre paginaęao e segmentaęao. 


Conslde 


0 programador precisa eatar ciente dela? 

Nao 

Sim 

Quantos espaęos de endereęos lineares ha? 

1 

Mul los 

0 espaęo de endereęo virtual pode ser maior do que o tamanho da memória? 

Stm 

Sim 

Tabelas de tamanhos variavets podem ser manfpuladas com facilidade? 

N3o 

Sim 

Por que a tócnica foi inventada? 

Para slmulai 

memórias 

grandes 

Para fornecer 
vśrios espaęos 
de endereęo 



6.1.7 Implementaęao de segmentaęao 

A segmentaęao pode ser implementują dc dois modos: permutaęao c paginaęao. No primeiro esąuenta, um 
certo conjunto de segmentos esta na mentória em um dado instante. Se for feita uma referenda a um segmento que 
nao esta na memória no monicnto em questao, esse segmento ć trazido para a memória. Se nao houver espaęo para 
ele, um ou mais segmentos devem ser escritos para um disco antes (u menos que uli ja cxisla uma cópia limpa, caso 
em que a cópia da memória pode ser abandonuda). Em certo sentido, u permutaęao de segmentos nAo ć dilerentc da 
paginuędo por demanda: segmentos vfim e vfio conforme a necessidade. 

Todavia, ha uma diferenęa essencial entre a implementaęao de segmentaęao e a implementaęao de pagina¬ 
ęao: pdginas tern lamanho fixo e segmentos nao. A Figura 6. l()(a) mostra um cxemplo de memória ffsica que eon- 
tćm inicialmente cinco segmentos. Agora considere o que acontece se o segmento I for extrafdo e o segmento 7, 
que e menor, for colocado em seu lugar. Chegamos a configuraę&o de memória da Figura 6.9(b). Hntre o segmen¬ 
to 7 e o segmento 2 hd uma drea nao utilizada, isto ć, uma lacuna. Entao, o segmento 4 e substitutdo pelo segmen¬ 
to 5. como na Figura 6.9(e), e o segmento 3 ć substituido pelo segmento 6. como na Figura 6.9(d). Após o sisle- 
ma executar duranle algum tempo, a memória eslard dividida em vdrias poręóes, algumas que contem segmentos 
e outras que contem lacunas. Esse fenómeno e denominado fragmentaęao externu (porque o espaęo ć desperdi- 
ęadi> fora dos segmentos, externamente, nas lacunas entre eles). As vezes a fragmentaęao exlerna ć denominada 
tabuleiro de xadrez. 


Considere o quc aconteceria se o programa referenciasse o segmento 3 na hora em que a memória cstivesse 
sofrendo fragmentaęao externa. como na Figura 6.9(d). O espaęo total nas lacunas Ł 10 K, mais do que suficienie 
para o segmentu 3, poróm, como o espaęo esta distribufdo em pedaęos pequenos e inuteis, o segmento 3 simples- 
mente nao pode ser earregado. Para isso, um outro segmento tern de ser removido antes. 

lim modo de evitar fragmentaęao externa e o seguinte: loda vez que aparecer uma lacuna, mover os segmen- 
los que estao após a lacuna pata mais perto da loealizaęao de memória 0, o que elimina aquela lacuna, mas deixa 
uma grandę lacuna no linal. Como alternativa, poderfamos esperar alć que a fragmentaęao externa se lorne baslan- 
te seria (por exempło, mais do que uma certa porcentagem da memória total desperdięada em lacunas) antes de exe- 
cutar a compuciaędo (eliminar as lacunas). A Figura 6.9(e) mostra como a memória da Figura h.9(d) llcaria após u 
compactuęgo. A intenęao de compactar memória e reunir todas as lacunas pequenas e inuteis ent uma grandę lacu¬ 
na, na qual um ou mais segmentos padem ser colocados. A compactaęio tern uma óbvia desvantagem: perde-se 
algum tempo para exeeutd-la. Compactar depois que cada lacuna e criada consome tempo demais. 

Se o tempo rei|uerido para compactar memória for tao grandę que nHo se possa aceitar, ć preciso um algoril- 
ino para determinai qual lacuna usar para um determinudo segmento. O gerenciamento de lacunas requer manier 
uma lista dos endcreęos e tamanhos de todas as lacunas. Um algoritmo popular, denominado mellior ajuste. esco- 
Ihe a menor lacuna na qual o segmento necessdrio cabera. A idóia ć compatibilizar lacunas com segmentos para evi- 
tar partir um pedaęo dc uma grandę lacuna que mais tarde podera ser necessdria para um segmento grandę. 

Um outro algoritmo popular, denominado primeiro ajuste, percorre a lista de lacunas em efreulos e escolhe 
a primeira lacuna grandę o suficiente para conter o segmento. E obvio que isso leva menos tempo do que verificar 
a listu inteira e achar o melhor ajuste. O surpreendente e que o algoritmo primeiro ajuste tambem 6 inelhor em ter¬ 
mos de desempenho global do que o algoritmo melhor ajuste, porque esse ultimo tende a gerar muitas lacunas 
pequenas, totalmentc inuteis (Knuth, 1997). 

Os algoritmos primeiro ajuste e melhor ajuste tendem a reduzir o tamanho medio da lacuna. Sempre que um 
segmento for colocado em uma lacuna maior do que ele. o que acontece quase toda vez (ajustes exatos sao raros), 
a lacuna e dividida em duas partes. Uma patie ć ocupada pelo segmento e a outra parte e a nova lacuna. Essa nova 
lacuna e sempre menor do que a antiga. A menos que haja um processo de compensaęao para criar lacunas grandes 
a panir de lacunas pequenas, ambos os algoritmos, o primeiro ajuste e o melhor ajuste. acabarao enchendo a memó¬ 
ria com pequenas lacunas inuteis. 



Capitulo 6 Nivel de Maquina de Sistema Operacional 






Organizaęao Estruturada de Computadores 


Figura fi. to 

Corwersao de um 
endereęo MULTICS de 
duas partes em um 
endereęo de memórta 
prtncipal. 



Endereęo MULTICS de duas partes 


Um desses processos de compensaęSo 6 o que descrevetemos a seguir. Seinpre que um segmento for removi- 
do da memória e um ou ambos dc seus vizinhos mais próximos forem lacunas e nSo segmcnlos. as lacunas adjaccn- 
tes podem ser aglulinadas em uma grandę e unica lacuna. Se o segmentu 5 fosse removido da Figura 6.9(d), as duas 
lacunas ao redor dclc c os 4 KB usados pelo segmentu seriam fundidos em uma unica lacuna de 11 KB. 

No infcio dcsta scętłu, afinnamos que hd dois modus de implementar segmentaęSo: pcrmutaęao e paginaęao. 
Atć agora a discussao conccntrou-se na m>ca. Nesse esquema. segmentos intciros s3o passados de um lado para 
(nitro entre a memória e o disco, por demanda. O outro modo de implementar segmentaęSo <5 dividindo cada seg¬ 
mentu em pdginas de tamanlio fixo e acessd-las por demanda. Nesse csquema. algumas das pap i nas de um segmrn 
to podem estar na memória e algumas no disco. Para paginar um segmento. ć prcciso uma tabela de pdginas sepa- 
rada para cada segmento. Uma vcz que um segmento 6 apenas um espaęo de endereęo lincar. lodas as tćcnicas que 
vimos ate agora aplicam-se u cada segmento. Aqui. a ónica caracterfstica nova ć que cada segmento tern sua pró- 
pria tabela dc pdginas. 

Um sistema operacional antigo que combinava segrttentaęao com paginaęao era o MULTICS 
(MULTiplexed Information and Cnmputing Service), de infcio uni csforęo conjunto do MIT. Bell Labs e 
General Electric (Corbató e Vyssotsky. 1965; e Organick, 1972). Os endereęos MULTICS linham duas partes; um 
ntimero de segmento e um endereęo dentro do segmento. Uavia um segmentu dcscritor para cada processo, que 
continha um descritor para cada segmento. Quando um endereęo virtual era apresenlado ao hardware, o mimem 
do segmentu era usado como um fndice para o segmento dcscritor. para localizar o descritor do segmento que esta- 
va sendo acessado. como mostra a Figura 6.10.0 descritor apontava para a tabela de pdginas. permitindo quc cada 
segmentu fosse paginado do modo usual. Para acelerar o desempenho, as combinaęóes segniento/pdgina mais 
recentemente usadas eram mantidas cm uma memória associatba de 16 entradas cm hardware. que permilia quc 
elas fossem consultadas rapidamenle. Entbora o MULTICS jd tenha desaparecido lid muito tempo, seu espfrito 
continua vivo porque a memória virtual de todas as CPUs da Intel, desde a 386, fonon modcladas seguindo de 
perto esse modelo. 

6.1.8 Memória virtual no Pentium 4 

O Pentium 4 tent um sistema sofisticado dc memória virlual que suporla paginaęao por demanda, segmentn- 
ęao pura c scgmcntaędo com paginaęao. O coraędo da memória Wrtual do Pentium 4 consisle em duas tahelas; a 
LDT ( Local Descriptor labie — tabela dc deseritnres lucais) e a GDT(tilobaMIescrtptor labie — tabela de 
descritores glnbuis). Cada progrmna tętn sua própria LDT, mas hd uma unica GDT, companilliada por todos os 
programas no eomputador. A LDT descrcve segmentos locuis a cada programa, ineluindo seu código. dados, pilha 
e assim por dianie, ao passo que a GDT descreve segmentos dc sistema, ineluindo o próprio sistema operacional. 

Como descrevemos no Capftulo 5, para acessar um segmento. um programa Pentium 4 primeiro cariega um 
sclctor para esse segmento em um dos registradores de segmento. Durante a execuę:1o. CS conlćm o seletor para o 
segmento de código. DS contćm o seletor para o segmento dc dados c assim por dianie. Cada seletor ć um numeru 
dc 16 bits. como mostra a Figura 6.11. 

Um dos bits do seletor infomta se o segmentu ć local ou global (isto ć. se ele est.1 na LD T ou na GDT). 
Outros 13 bits especificam a linha de entrada da LDT ou GDT. portanto. cada uma dessas tahelas est,1 restrita a 
contcr 8 KB (2 1 ') descritores de segmentos. Os outros 2 bits estao relacionados com proteęao c serao descritos 
mais adiante. 
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Descrilor de segmento de 
código do Pentium 4 
Segment os de dados sao 
ligeuamente dderentes. 


BASE 0-1S 

LIMITE 0-tS 

BASE 24-31 ]g|d|o|.| LIMITE 16-19 

P|DPL| TIPO | BASE 16-23 


Tlpo de segmento e proteęflo 
- Nlvel de prMIśglo (0-3) 


0 . segmento de 16 bils[ 
1 : segmento de 32 bitej 


0 : Segmento esta ausenle da memória 
1 : Segmento esta presente na memória 


O descrilor 0 i itwdlido e causa uma exeeęao se usado. Ele pode ser carregado cotri seguranęa em um regis- 
trador de segmento paru iudicar que o registrudor de segmento nao esta dispontvcl no momento em queslao, mas 
causa uma exccęao se tor usado. 

No instanle em que um selctor e carregado em um registrador dc segmento, o descrilor correspondcnte ć hus- 
cado na LDT ou GDT e anua/.enado em registradores MMU intemos, de modo i|ue possa ser aeessado rapidamen- 
le. Um descrilor consiste em 8 bytes, incluindo endereęo de base, o tamanho e outras informaęfles do segmento, 
como descrito na Figura 6. 12. 

O formato do selelor lbi escolliido cotn inteligencie para facilitar a localizaędo do descrilor. Em primeiro lugar 
e sclecionada LDT ou 01)1, córa base no bit 2 do selctor. Entao o sektor ć copiado para um registrador transitório 
da MMU e os .1 bils de ordem baixa sao ajustados para 0, o que equivale a multiplicar o numeru de selelor de 13 
bils por 8. Por fint, o endereęo iniaul da tabela LDT ou da tabela GDT (mantido em registradores MMU intemos) 
e sornado ao seletor. para dar um ponteiro direto para o descritor. Por exemplo, o selelor 72 referenda u entrada 9 
na GDT, que estd localizada no endereęo GDT + 72. 

Vamos acomparthar as etapas pelas quais um par (seletor, deslocametlto) 6 convertido em um endereęo lisico. 
Logo t|ue o hardware souher qual registrador de segmento estii sendo usado, pode achar o descrilor completo cor- 
rcspondcnie aquele selelor em seus registradores intemos. Se o segmento nflo existir (seletor 0) ou nao e$tiver na 
memória no momentu em questao (bit P e 0), ocorre uma exceęao. O primeiro caso e um erro de programaęao; o 
ultimo requer que o sistemu operacional vd pegd-lo. 

Em seguidu, o hardware verifica para vcr se o desloeamento estd ulem da extremidade do segmentu, caso em 
quc ocorre uma execęao. Pela lógica, deveria haver simplcsmente um campo dc 32 bits no descritor informando o 
tamanho do segmentu, mas uli hu somente 20 bils disponfveis, portunto ć usado um esquemu diferente. Se o bit G 
(grunularidaUe) do campo for 0, o campo LIMITE 6 o tamanho exato do segmento, atć I MB. Se for I, o campo LIMI- 
TE dd o tamanho do segmento em pdginas, em vez de bytes. O tamanho da pagiua do Pentium 4 nunca ć mertor do 
que 4 KB, porlanlo 20 bils sdo suficientes para segmentos atć 2 ł2 bytes. 

Considerando (|tie o segmentu estś na memória e o desloeamento esta dentro da faixa, o Pentium 4 entdo soma 
o campo BASE de 32 bits que estd no descritor com o desloeamento para formar o que e denominado endereęo 
linear, como mostra a Figura 6.13. O campo BASE e desmembrado em tres pedaęos e espalhado pelo descritor para 
manter a compalibilidade com o 80.286, no qual BASE leni só 24 bits. Com isso, o campo BASE permite que cada 
segmento inicie em um lugar arbitrario dentro do espaęo de endereęo linear de 32 bits. 

Se a paginaęao esiiver desabilitada (por um bil em um registrador de controle global), o endereęo linear e 
interpretado como o endereęo ffsico e enviado para a memória para a leilura ou eserita. Portanto, com a pagina¬ 
ęao desabilitada. temos um esquema de segmentaęao pura, no qual cada endereęo-base de segmento i dado em 
seu descritor. A propósito, e permitida a supcrposięSo de segmentos, provavelmente porque dana muito trabalho 
e levaria muito tempo verificar se todos eram disjunlos. 

Por outrt) lado. se a paginaęao esliver habilitada, o endereęo linear ć interpretado como um endereęo virtual e 
mapeado para o endereęo ffsico com a utilizaęao de tabelas de pdginas, muito parecido com o apresentado em nos- 
sos exemplos. A dnica complieaędo e que, com um endereęo virtual de 32 bits e uma pdgina de 4 KB, um segmen¬ 
to poderia conler 1 milhao de pdginas, portanto ć usado um mapeamento de dois nfveis para reduzir o tamanho da 
tabela de pdginas pum segmentos pequenos. 
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Cada programa em execuędo lem um dlrcturiu de paginas que consistc em 1.024 cntradas de 32 bils c csta 
localizado em um endereęo aponlado por um rcgislrador global. Cada entrada nesse diretório aponta para urna tabe¬ 
la de paginas que lambćm contćm 1.024 enlradas de 32 bits. A tabela de entradas dc pdginas aponta para o quadro 
de pdginas. O esquema ć most rado na Figura 6.14. 

Na Figura 6.14(a) vemos um endereęo linear dcsmeinbrado em tr€s campos: DIR. PAGE e OFF. O campo DIR 
e usado em prinieiro lugar como um fndice para o diretório de pdginas para locali/ar um ponteiro para a tabela de 
pdginas adequadn. Entilo o campo PAGE ć usado como um fndice para a tabela dc pdginas para achar o endereęo 
ffsico do quadro de pdgina. Por firn, OFF ć somado ao endereęo do quadro dc pdgina para obter o endereęo ffsico 
do byle ou da palavrn endercęada. 

As linhas da tabela dc piiginas tSm 32 bils cada. 20 dos quais contćm um mi mero de quadm de pdgina. Os bits 
rcslantes contćm bils dc acesso e bits sujos, ajustados pelo hardware em provcilo do sistema operacional. bits de 
protcęao e outros bits de utilidadc. 

Cada tabela de paginas tein linhas para 1.024 quadros de pdgina dc 4 KB, portanto urna linica tabela de pdgi- 
nas manipula 4 megabytes de memória. Um segmento mais curto do quc 4 M terd um diretório de pdginas com urna 
linica linha, um ponteiro para sua linica tabela de pdginas. Desse modo. a sobrccarga para segmentos curtos ć de 
apenas duas linhas, em vez do milhdo de linhas que seria necessdrio em urna tabela dc pdginas de um só nfvcl. 

Para eviiar fazer referćncias repelidas d memória, a MMU do Pentium 4 tern suportc espeeial de hardware para 
consultar rapidamente as combinaęóes DIR-PAGE mais recentemente usadas c mapcd-las para o endereęo ffsico do 
quadro de pdgina correspondente. Só quando a combinaędo corrcnte ndo tiver sido usada recentemente ć quc as eta- 
pas mnstradas na Figura 6.14 sao realnienie exccutadas. 

Um pouco dc raciocfnio revelurd quc. quando e usada a paginaędo. na yerdadc nao hd nenhum motivo para o 
campo BASE no dcscritor ser ndo-zero. A linica coisa quc BASE faz ć causar um pequeno dcslocamento para usar 
urna entrada no meio do diretório de pdginas, em vez de no infcio. A linica e real razao para incluir BASE <5 permi- 
tir segmenlaęao pura (ndo paginada) c manier a compatibilidade com o antigo 80286. que udo linha paginaędo. 

Tambćrn vale a pena mcncionar que. sc detenninada aplicaęao ndo precisar dc scgmentaędo. mas se contenlar 
com um espaęo de endereęo de 32 bits unico, paginado, isso ć fdcil dc obter. Entao, todos os registradores dc seg¬ 
mento podem ser monlados com o mesmo seletor. cujo descrilor tem BASE = 0 e LIMITE ajustado para o mdximo. 
Sendo assim, o deslocaniento da instruęao serd o endereęo linear, com apenas um linico espaęo de endereęo usado 
— portanto. paginaędo tnulicional. 

Agora terminamos nosso estudo da memória virtual no Pentium 4. TodaVia, valc a pena falar um pouco 
sobre protcęao. urna vez. que esse assunto guarda (ntiina relaęao com a memória virtual. O Pentium 4 suporta 
ipiatro nfvcis de proteędo, sendo o nfvel 0 o mais privilegiado e o nfvcl 3 o menos privilcgiadu. F.les sdo mos- 
trados na Figura 6.13. A cada instante um programa em cxccuęao estd em certo nfvel, indicado por um campo 
de 2 bits cm sua PSW (Program Status Word — palarni de estado dc prngramn). rcgislrador de hardware 
que contćm os bits dc código de condiędo e vdrios outros bils dc estado. Alćm do mais. cada segmento no sis¬ 
tema pertence a certo nfvel. 

Contanto que um programa sc restrinja a usar segmentos em seu próprio nftrel, tudo funciona bem. Tentativas 
de accssar dados em um nfvel mais allo sao pennitidas. Tcntativas de acessar dados cm um n(vel mais baixo sdo ile- 
gais e causam cxceęóes. Tentativas de chamar proccdimentos em um nfvel diferente (mais allo ou mais baixo) sdo 
pennitidas, mas de modo cuidadosamenle controlado. Para fazer urna chamada enlre nfvcis. a instruędo CALL deve 
conter um seletor cm vez de um endereęo. Esse seletor designa um descrilor denominado porta de chamada. que 
ild o endereęo do procedimcnto a ser chamado. Assim, ndo e possfvel desviar para o meio de um segmento de códi¬ 
go arbitrario em um nfvel diferente. Só pontos de entrada oficiais poiłem ser usados. 









Umu ulilizaęiio possivel ilcsse mecanisnto ć sugerida na Figura 6. 15. No nfveł 0, achamos o mieleń do siste- 
nia operacional, que inanipuła H/S, gercnciamento de memória e oulros assuntos cnticos. No ntvel I, o tratador dc 
chamada dc sisleinu estti prcsenlc. Aqui, programas usuńrios pudem chamar proccdiincnlos dc modo a executur cha 
madas dc sislema, mus apenus urna lista protegida c espccftica dc proccdimcntos pode ser chamada. O mvel 2 eon- 
td tern proccdimemos dc bililioieca, possivclmente compartilliadus por muitos programas cm execuęao. Programas 

e- usuarios pudem chamar esses proccdimcntos, mas nao pudem modificii-lns. Por lim, programas usutirios cxccutam 

o no nhel 3, que icm a ntenor proteęfio. Assim como o csqucma de gercuciamcnto de memória do Pentium 4, o sis- 

tennt dc proleędo e baseado no MULT1CS. 

R 1 Exccęftes c inlerrupęóos usum urn mecanismo similar nus portus de chamada. Tatnbćm cios referendom des- 

e critorcs cm vez de endereęos absolutos, e esses dcscritorcs apontam para proccdimcntos espcdJicos a ser cxccuta- 

) dos. O cumpo TIPO na Figura 6.12 distiugue enlre segmentos de código, segmentos dc dados c as varias cspćcic.s 

i de portas. 

6.1.9 Memória virtual na UltraSPARC III 

A UltraSPARC III e urna maquina dc 64 bits c suporta umu memória virtual pagiuatla buscada em endereęos 
virluuis dc 64 hits. Cuntudo, por ra/ócs dc engenharia e custo, os programas nao podein usar todo o espaęo de endc- 
reęo virtual dc 64 bits. Somcntc 44 bits sao suportudos, portanto os progrumas nao podcm passat dc 1,8 X |() ,J 
hytes. A memória virtuul permitida ć div idida em duus zonas dc 2 4 ' bytes cuda, unia nu parte dc citna do espaęo de 
eudcrcęo \ irtual c mitra nu purtc dc baixo. No mcio ba urna lucunu quc contćm endereęos quc nao podcm ser usu- 
dos. Umu tcntutiva de ustl-lt>s cuusura urna talia dc pdgina. 

A memória lisica nuiximu em urna UltraSPARC III ć 2'" bytes, que ć cerca de 2.200 GB, grandę o suficien- 
tc paru u muiuria das aplicuęóes mais cornuns. Quutro tumunhos dc ptiginu situ suportudos: 8 KB, 64 KB, 512 KB 
c 4 MB. Os mapeumentos implfcitos por esses quatro tamanhos de pńgina siu ilustrados oa Figura 6.16. 

Dcvido a csse espaęo dc endcrcęo virtual esiremumente grandę, ntlo seria pratico ter urna tabela dc paginas dire- 
ta como u do Pentium 4. Em vez disso, a MMU da UltraSPARC III e foręada a usar uina abordagent muito difcrcntc. 
F.la contćm uma tabela em hardware denominada TLB (Translation I.ookasidc Buffer — hulTcr de traduęao latc- 
ral) quc mapciu numeros dc pćgina virtual para numeros de quadros dc pdginas łTsicas. Para o lamanho dc pdgina dc 
8 KB hd 2 ai numeros de paginas yirtuuis, isto ć, mais de 2 hilhóes. E claro que nem todas pudem ser mupeadas. 

Em vcz disso, u TI.B contćm só os numeros de pdginas virtuais mais recentementc usudas. A monitoraędo tle 
inslruęóes c pdginas dc dados ć fcita em separado, sendo que a TLB retem os 64 numeros dc pdginas virtuuis mais 
recentementc tistidas cm cuda categoria. Cada linha da TLB contćm urn mimem de pagina v irtuul e o numeru do qua- 
dro dc pdginu lisica mrrespondenle. Quando uni numeru de processo, denominado contcsto. e urn cndercęo virin.il 
dentro desse contexto sao apresentudos d MMU, cla usa circuitos especiais para comparar o mimem de pagina vir- 
tual conlido no contexto cum todas as linhas da TLB para aquele contcxto ao mesmo tempo. Se for enconlrada uma 
correspondćncia, o mimem de quadro de pdgina naquelu linha da TLB ć comhinudo cum o dcslocamcnto tornado 
do endcrcęo virtual paru formnr urn cndercęo lisico de 41 bits e produzir ulguns sinalizudores (llags), como bits dc 
protcędo. A TLB ć ilustrada nu Figura 6.l7(a). 
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Todavia. se nenhtimn corrcspondencia for encontrada, ocorre umn ausencia da TLB, que causa uma cxccę9o 
para o sistema operacional. Cabe ao sistema operacional tralar a falta. Notę quc uma ausćnciu da TLB ć muito difc- 
rentę de uma falta de ptigina. Uma ausencia da TLB pode acontecer tnesmo que u pagina referenciada esteja na tncmó- 
ria. Em teoria, o sistema operacional pode fazer o quc quiser para carrcgar uma nova linha da TI.B para a pagina vir- 
tual rcquerida. Contudo, para acelerar cssa opcraęflo cnicial. o hardware d<1 alguma assistćncia sc o software coopcrar. 

Em particulnr, espera-se que o sistema operacional mautenha uma cachc de software com as entradas I LB 
rnais usadas cm uma tabela denominada TSB (Translation Storage Buffer — hufTcr de arma/enaniento «le tra¬ 
duęao). Essa tabela ć organizada como uma cache de inapeumento direto dc ptiginas virtuais Cada linha da TSB dc 
16 bytes rcfcrc-se a uma tinica pagina virlual e contćm mti bit de validade, o mimem do contexto, o rótulo tle endc 
reęo virtual. o numero da ptigina Ifsica e alguns bits de sinalizaęAo. Sc o tamnnho da cachc for, por cxcmplo, 8.192 
linhas, entao todas as ptiginas virtuais cujos 13 bits de ordem haixa mapeiam para OOOOOOOOOOOOO compctem pela 
linha 0 na TSB. I)e modo similar, todas as pugiims virtunis cujos bits de ordem haixa mapeiam para OOOOOUOOOOOOI 
competem pela liuhn I no TSB. como rnostra u Figura 6.17(b). O tamanho da TSB ć determinado por software c 
comunicado a MMU (>or ineio de registradores cspccinis acess(veis somenlc para o sistema operacional. 

Quando ocorre uma ausćncia da TLB, o sistema operacional verifica sc a linha corrcspondcnte na TSB contćm 
a pagina virtual necessdria. Aqui, a MMU presta um conveniente auxflio calculando o endereęo dessa linha e colo 
cando-o em um registrador interno da MMU, acessfvcl para o sistema operacional. Sc houver uma presenęa na cache 
da TSB. alguma linha da I LB ć cxpurgada e a linha da TSB necessśria ć copiada pani a TLB. O hardware tambćm 
ajuda escolhendo uma linha da TLB para expurgar, usanclo um algoritmo I.RU menos rccentcmcnte usado de I hit. 

Se os deuses da TSB nSo forem propfcios ao processo, e a ptigina virtual acessada niio cstivcr na cache, o sis- 
lema operacional usa uma outra tabela para localizar a infnrmaę9n sobre a pagina, que pode estar ou n3o na memó- 
ria principal. A tabela ttsada para essa consulta dc ultimo recurso e denominada tabela de traduęao. Uma vez quc 
atpii nao ha nenhuma assistencia do hardware na consulta de entradas, o sistema operacional estć livre para usar 
qualqucr formatu quc qtiiser. Por exemplo. pode fazer uma operaęSo de lui.sli com o numero de pagina virtual divi- 
dindo-o por algutn numero primo. />, e usando o resto como fudice para uma tabela de ponteiros, na qual cada um 
aponta para uma lista encadeada de linhas de paginas \ irtunis que produzem o mesmo resullado na operaęSo de hash 
com p. Notę que essas linhas nao sao as paginas. mas as linhas da TSB. O resullado da consulta de uma pdgina na 
tabela de traduęao pode ser a localizaęSo da pagina na memória. caso em quc a linha da T SB na cache de software 
ć atualizada. O resullado tambćm pode ser a descoberta de que a pagina nao estii na memória. quandn entao ć ini 
ciada uma aęao padronizadu de falta de pćgina. 

Ś inleressante comparar os sistenias de memória virtunl do Pentium 4 e da UltraSPARC III. O Pentium 4 
suporta segmenlaęfio pura. paginaęao pura e segmcnlos paginados. A UltraSPARC III só leni paginaę5o. O Pentium 
4 tambćm usa hardware para percorrer a tabela dc ptiginas para rccarregar a TLB no cvcnto dc uma ausćncin da 
TLB. A UltraSPARC III npenas passa o controle para o sistema operacional quam!o lisi uma ausencia da TI.B 

A razao primaria para essa diferenęa e que o Pentium 4 usa segmentos de .32 bits c esses segmentos tao peque- 
nos (somente I milhao de ptiginas) podern ser manipulados com tabclas de ptiginas comcncionais. Em teoria, o 
Pentium 4 teria um probłema se um programa usasse milhares de segmentos. mas. uma ve/ (|uc nenhuma das ver- 
sóes do Windows ou do UNIX suporta mais do que um segmentu por processo. o probłema nao aparccc. Por com- 
paraęao, a UltraSPARC III ć uma maquina de 64 bits c pode ter atć 2 bilhóes dc piiginas. logo, tabel as de ptiginas 
convencionais nao funcionam. No futuro, todas as miiquinas tcr;lo cspaęos de endereęo virtual de 64 bits, portanto 
csquemas como o da UltraSPARC seriio norma. 

G.1.10 Memória virtual e caching 

Embora t) primeira vista memória virtual (paginada pordemanda) c caching niio pareęam relacionadas. cm ter¬ 
mos dc conceilo elas sdo muito similares. Com memória Wituol, todo o programa e mant ido em disco e desmeni 





brado em paginas dc tamanho fixo. Algum subconjunto dessas paginas esta na memória principal. Se o programa 
usar, na maior parte, as paginas na memória, havera poucas fallas de pagina e o programa executard rapidamente. 
Com caching, todo o programa e maniido na memória principal e desmembrado em blocos de cache de tamanho 
fixo. Algum subconjunto desses blocos e maniido na cache. Se o programa usar, na maior parte, os blocos na cache, 
haverd poucas ausencias du cache e a execuęao do programa sera rapida. Em termos de conceito, as duas sao idćn- 
ticas, só que operatu cm nfveis diferentes na hierarcpiia. 

E claro que tumbę rn ha algumas diferenęas entre memória virtual e caching. Urna delas ć que as ausencias da 
cache sao manipuladas pelo hardware, enquauto faltas de pdgina sao inanipuladas pelo sistema operacional. Alem 
disso, blocos de cache lipicos sao muito menores do quc pdginas, por exemplo, 64 bytes versus 8 KB. E mais, o 
mupeamenlo entre paginas virluais e quadros de pdginas ć diferenle, sendo que as tabelas de pdginas sao organi/u- 
das indexundo paru os bits de ordem alta do endereęo virtual, ao passo que caches indexam para os bits de ordem 
baixa do endereęo ile memória. NSo obstanie, ć importante enlender que sdo diferenęas de implementaęao. O con¬ 
ceito subjacenle e muito similar. 

6.2 Instruęóes de E/S virtuais 

O conjunto de instruęoes de nfvel ISA ć completamente diferenle do conjunto de instruęóes de microarquitetu 
ra. As operaęóes que pudem ser executadas e tambćm os fonnatos das instruęóes sdo bem diferentes nos dois nfveis. 
A existdncia ocasional de alguinas instruęóes, que sao as mesmas em ambos os m'veis, ć, em essźncia, acidenlal. 

Em contrasle, o conjunto de instruęóes de ntvel OSM contem grandę parte das instruęóes de nfvel ISA com 
a adięiio de algumas instruęóes novas, porćm impoilantes, e a remoęao de algumas poucas instruęóes potencial- 
mentc dano sus. Enlruda/salda e unia das dreas em que os dois nfveis apresentam considerdveis diferenęas. A 
razao para essas diferenęas e simples: um usudrio que pudesse executar as instnięóes de E/S reais de ntvel ISA 
poderia ler dados confidenciais armazenados em qualquer lugar do sistema, escrever em terminais de outros 
usuarios e.jem geral, se transformat' em um grandę transtomo porque seria urna ameaęa a seguranęa do próprio 
sistema. Em segundo lugar, programadores normais, sensatos, nao querem fazer E/S no nfvel ISA porque ela e 
lediosa e coinplexa ao extremo. Realizar urna E/S requer ajustar campus e bits em vdrios registradores de dispo- 
sitivos, esperar ale que a operaędo seja conclufda e entao verificar para ver o que aconteceu. Só para dar um 
exemplo da veriticuęao, os discos tern bits de registrador de dispositivo para deteclar os seguintes erros, entre 
niuitos outros: 

1. O braęo do disco nao realizou urna busca adcquadu. 

2 . Memória inexistente especificada como buffer. 

3. E/S tle disco comeęou antes do termino da anterinr. 

4. Erro de tempori/aęao de leitura. 

s. Disco endereęado inexistente. 

6. Cilindro endereęado inexistente. 

7. Setor endereęado inexistente. 

8. Erro de suma de verificaęao na leitura. 

9. Erro ile veri(icaęao de escrita após operaęao de escrita. 

Quando um desses eiros ocorre, o bit correspondente em um registrador de dispositivo & ajustado. Poucos 
usuarios querem se ineomodar com a monitoraęao de tmlos esses bits de erro e urna grandę quantidade de itiforma- 
ęóes de estado adicionais. 

6.2.1 Arquivos 

Um modo de organizar E/S virtual e usar urna abslraęao denominada arquivo. Em sua forma mais simples, 
um arquivo consiste em inna scqiićncia de bytes escrita em um disposilivo de E/S. Se o dispositivo de E/S for um 
dispositivo de armazenamenlo, como um disco, o arquivo pode ser lido de volta mais larile; se o dispositivo nao for 
um dispositivo de armazenamenlo — por cxemplo, urna iinpressora —, nao pode ser lido de volta, e claro. Um disco 
pode conter muilos arquivos, cada um com algum tipo particular de dados, por exemplo, urna figura, urna planiiha 
ou o texto do capftulu ile um livro. Arquivos diferenies tfim comprimentos e oulras propriedades diferentes. A abs- 
traęao de um arqui\ o permite que a E/S virtual seja organizada de maneira simples. 

Paru o sistema operacional, um arquivo normalnienie e apenas urna seqiiencia de bytes, como descrevemos 
antes. Quulquer estrutura ulterior cabe aos programas de aplicaęao. E/S de arquivo e feita por chamadas de sistema 
para abrir, ler, eserever e lechar arquivos. Antes de ler um arquivo, ele precisa ser aberto. O processo de abertura de 
um arquivo permite que o sistema operacional localize o arquivo em disco e traga informaęoes da memória neces- 
sarias paru acessd-lo. 

Unia vez aberlo, um arquivo pode ser lido. A chamada de sistema read deve ter os seguintes parametros, no 
mfnimo: 

1. Urna indicaęao de ipiul arquivo aberto deve ser lido. 

2 . Um ponteiro para um buffer nu memória no qual colocar os dados. 

3. O mimem de bytes u ser lido. 
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A chamada read coloca os dados requisilados no bulTer. Usualinente ela retoma a conlagem do numero de byłeś 
realnienie lidos, quc pode ser inenor do que o numero requisitado (voce nao pode ler 2.000 hytes dc uni arquivo 
de 1.000 byles). 

Associado com cada arquivo aberto ha um ponteiro que infonua qual byle serii lido ern seguida. Após uma 
read, o ponteiro avanva eon formę o numero dc hytes lido, portanto. reads consecutivas lt?em blocos de dados con- 
sccutivos do arquivo. Habitualmcnte. ha um modo dc ajustar esse ponteiro para um valor especffico. portanto os 
programas podcin acessar alcatoriamcntc qualquer parte do arquivo. Quando um progrnma encerrou a leitura de um 
arquivo, pode fechd-lo para informar ao sistema opcracional que nao u.sard ntais o arquivo. o que pemiite que o sis- 
tema opcracional liberc o espaęo de tabela quc estd sendo usado para conler informaęóes sobre o arquivo. 

Sistemas operacionais dc computadores de grandę porte (mainfranies) tfim uma idćia mais sofisticada do 
quc 6 um arquivo. Nesses sistemas, um arquivo pode ser uma seq(l£ncia de registros lógicos, cada um com uma 
estrulura bem definida. Por esemplo, um regislro lógico poderia ser uma estrutura de dados que consistc cm einco 
itens: duas cadcias de caracteres, "Nome" e “Supervisor"; dois mimeros inteiros, “Departamento" e “Escritório”, 
e uma boolcana *'SexoliFenunino". Alguns sistemas operacionais fazem uma distinęfio entre arquivos nos quais 
todos os registros em um arquivo tern a mesma estrutura e arquivos que contem uma mistura de diferentes tipos 
de registros. 

A instruęao de entrada virtual basica 16 o próximo regislro do arquivo especificado e o coloca na memória Prin¬ 
cipal comeęando no endereęo especificado. como ilustrado na Figura 6.18. Para rcalizar essa operaęao. a instruęao 
virtual deve ser infonnada de qual arquivo ler e em que lugar da memória colocar o registro. Muitas vczes hd opęóes 
para ler um registro especffico, especificado por sua posięiio no arquivo ou por sua chave. 

A instruęao dc safila virtual basica escrcvc um registro lógico da memória para um arquivo. InstruęOes write 
scqlienciais consccutivas produzem registros lógicos consecutivos no arquivo. 

6.2.2 Implementaęao de instruęóes de E/S virtuais 

Para entender como sóo implementadas instruęóes dc E/S virtuais. ć necessario examinar como os arquivos 
sSo organizados e armazenados. Ha uma quest3o basica que todos os sistemas de arquivo devem encarar: a aloca- 
ęao de annazenamento. A unidade de alocaęao pode ser um unico setor de disco, mas muitas vezes consistc em um 
bloco de setores conseculWos. 

Uma outra propriedade fundamental da implementaęao dc um sistema dc arquivos ć sc um nrquivo e armaze- 
nado em unidades de alocaęio consecutivas ou nao. A Figura 6.19 descreve um disco siniples com uma superffcie 
que contćm cinco trilhus de 12 setores cada. A Figura 6.19(a) nrostra um csquema de alocaęao no qual o setor 6 a 
unidade bdsicn dc alocaęao de espaęo e no qual um arquivo consistc cm setores consecutWns. A alocaęao consecu- 
tiva de blocos de arquivo i comumente usada em CD-ROMs. A Figura 6.19(b) mostra um csquema de alocaętio no 
qual o setor ć a unidade bdsica de alocaęiio e no qual o arquivo nao precisa ocupar setores consecuticos. F.sse csquc- 
mn e a norma para discos rigidos. 

Hd uma importante dislinęao entre a vis3o que um programador de aplicaęAo tein dc um arquivo e a vis3o (|uc 
o sistema operacional tern dc um arquivo. O programador ve o arquivo como uma seq(16ncia lincar de bytes ou regis¬ 
tros lógicos. O sistema o|wracional vS o arquivo como uma coleęao de unidades de alocaęflo ordenadas. se bem que 
nao necessariamente consecutivas, em disco. 

Para enlregar o byte ou registro lógico n de alguni arquivo sob requisięao, o sistema operacional precisa ter 
algum metodo para localiznr os dados. Se o arquivo for alocado consecutivamente, o sistema operacional só preci 
su saber a locaiiz.aędo do infcio do arquivo para calcular a posięao do byte ou registro lógico necessario. 

Sc o arquivo ndo for alocado consccutivamentc, ndo ć possfveI calcular a posiędo dc um byte ou regislro 
lógico arhitrdrio no arquivn a partir somenle da posięiio de infcio do arquivo. Para localizar qualqucr byte ou 
registro lógico arhilrdriu ć prcciso uma tabela, denominadu fndice de arquivo. que da as unidades dc alocaędo c scus 
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endereęos ile disco propriamente ditos. O indice de arquivo pode ser organizudo coino unia lisia dc endereęos dc 
hlocos dc disco (usado |iclo UN1X), ou como urna lista de registros lógicos quc dao o endereęo de disco e o deslo- 
camenlo para cada uin. As vezes cada registru lógieo tern unia chave e os programas pudem se rcferir a cle por sua 
chave, cm vez de por seu numeru dc registru lógieo. Nessc caso, u tiltimu organizaęao e rcquerida, sendo ipie cada 
entruda contćm nao sń a loculizaęao do registru em disco, mas tambem sua chave. Essa organizaęao e comum em 
mainfrumcs. 

(Jm mćtodo allernativo de localizar unidades de alocaęao dc uni urquivo e organizar o arquivo como urna listu 
cucadeudu. Cada unidudc dc alocaęao contćm o endereęo de sua sucessora. lim modo dc implcmcntar esse esque- 
ma cum eficiencia ć manier a tabela com todos os endereęos das sucessoras na memória principul. For exemplo, 
para urn disco com 64 KU ile unidades de alocaęiio, o sistetnu opcracional poderiu ter urna tabela na memória cum 
64 KU dc linhus, cada urna dundo o indice de sua sucessora. For cxcmp!o, se urn arquivo ocupusse as unidades de 
alocaęiio 4. 52 e 19, u lintiu 4 nu tabela contcria um 52, a linha 52 conleria um 19. e a lintia 19 conteria uni código 
cspccial (por exemplo, 0 ou I) para indicar finał de arquivo. Os sistemas de arquivos usados por MS-DOS, 
Windows 95 e Windows 98 !uncionavani dessa mancira. O Windows XF suporta esse sisteniu de arquivos, mas tam- 
bćni tem seu próprio sistema de arquivos nativo, que funcionu mais como o UNIX. 

A te agora discuttmos arquivos aloeados consecutivamentc e arquivos alocados udo consecuiivamente, mas nao 
espccilicamos por quc sio usados dois tipos. Em arquivos alocados consecutivamentc, a adminislruęao de blocos e 
mais simplcs. mus quaudo o tumaniło maximo de arquivo nao i conhecido com anteccdćncia, e rani poder usar essas 
tćcnicas. Se um arquivo comeęasse no setor j c Ihe fosso pemiitido crescer paru setores consccutivos, ele poderiu 
encostar em um outio arquivo no setor k e nao ter espaęo para se cxpundir. Se o arquivo nao for alocado consecu- 
tivamente, nao havera problemu algum, porque blocos sucessivos podani ser colocados em quulquer lugar do disco. 
Se um disco coutivei unia quunlidude de urquivos que estao crescendo e cujos tumanhos finais nao sao conhecidos, 
seria praticamenlc impossfvel armazenar cada um como um arquivo consecutivo. Mover um arquivo existente as 
vezes e possivel, mas sempre custa caro. 

For outro lado, se o tamanho ma.\imo de todos os arquivos for conhecido com anteccdćncia, como acontece 
na gravaęao de um CD-ROM, o programu de gravaęao pode aloear com anteccdćncia unia carrcira de setores cujos 
comprimcnlos sao esatumente iguuis aos de cada arquivo. Assini, se quisermos gravar arquivos com contprimentos 
de 1.200, 7(X), 2.(XX) e 9(X) setores em um CD-ROM. eles podem simplesmente coineęar nos setores 0, 1.200, 1.900 
e 3 900, rcspeciivamcntc, ignorando, nesse caso, a tabela de cometido. Unia vez conhecido o prinieiro setor do 
urquivo, e simplcs achar qualquer parte de qualquer arquivo. 

Fura aloear espaęo no disco para um arquivo, o sistema opcracional dcve monilorar quais blocos estao dispo- 
nfvei* e quuis ja estao em uso amia/cnando outros arquivos. No caso de um CD-ROM, o calculo & feito com ante- 
cedencia, unia vez so, para todos os arquivos, e ć delinitivo; porem, quundo se trata de utn disco rigido, os arquivos 
vćm e v3o o tempo todo. IJm mćtodo consiste em manier unia lista de łodas as lacunas, sendo unia lucunu definidu 
como qualquer ijuantidude de unidades de alocaęao contfguas. Essa lista ć denoininada lista de livres. A Figura 
6.2(Xa) iluslra u lista de livres para o disco da Figura 6.19(b). 
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Um inćtodo allcmativo e manier um mapa de bits, com 1 bil por unidadc de alocaęSo. como mostra a Figura 
6.20(b). Um bit I indica que a unidade de alocaęao jd cstd ocupada. e um bit O indica que ela estd disponfvel. 

O primeim inćtodo tern a vantagem de facilitar encontrar urna lacuna dc delerminado comprimento. Todavia. 
tern a desvantagem do tainanho variavel. A medida que arquivos sao criados e destrufdos. o comprimento da lisia 
sofrer.1 variaęóes, uma caracterfstica indesejdvel. A tabela de bits tern a vantagem de seu tamanho constantc. Alćm 
do mais, mudar o estado de uma unidade de alocaęSo de disponfvel para ocupada e só urna questao de mudar I bit. 
Todavia. achar um bloco de detenninado tamanho 6 diffcil. Ambos os mćtodos requerem que a lista ou tabela de 
alocaęao seja atualizada quando um arquivo no disco for alocado ou devolvido. 

Antes de enccrrar o assunto da implemcntaęao de sistema de arquivos, vale a pena comcntar o tamanho da uni¬ 
dade de alocaęao. Nesse caso, vdrios fatores dcsempenham um papci fundamenty!. Km primeiro lugar. tempo dc 
busca e atraso rotacional dominant accssos a disco. Como jd foram investidos 10 ms para chcgar no infcio dc uma 
unidade de alocaęao. ć muito melhor ler 8 KB (cenade 1 ms)doque I KB (cercade0.125 ms). jd que ler 8 KB como 
oito unidades de I KB exigird oito buscas. A eficiencia da transferfineia ć um ponto a favor dc graniles unidadcs. 

Tainbćm a favor dc grandcs unidades de alocaęao ć o fato de que ter unidades de alocaęSo pequcnas significa ler 
muitas unidades dc alocaęao. Por sua vez, muitas unidades de alocaęao significam grandes fndices de arquivo ou gran- 
des tabelas de listas eneadcadus na memória. Na verdade, a raziło por que o MS-DOS tinha de recorrer a unidades de 
alocaęSo mullisselorcs era o fato de que os endereęos de disco erant armazenados como nómeros de 16 bits. Quando 
os discos ullrapassaram 64 KB de setores. o unico modo de representa-los era usar unidades de alocaęSo ntaiores, para 
que o numero de unidades de alocaęSo nao uitrapassasse 64 K. A printeira versSo do Windows 05 tinha o mesmo pro- 
blenta, mas uma versao subseqiiente usava numeros de 32 bits. O Windows 98 suportava ambos os tamanhos. 

Contudo, em favor de unidades de alocaęao pequenas estd o fato de que poucos arquivos ocupam exalamentc 
um numero inteiro de unidades de alocaęao. Por conseguinte. sempre serd desperdięado algum espaęo na ultima 
unidade de alocaęao de praticamente todos os arquivos. Sc o arquivo for muito maior do que a unidade de aloca¬ 
ęao, o espaęo desperdięado medio sera metade de uma unidade dc alocaęSo. Quanto maior a unidade de alocaęao. 
maior a quantidadc de espaęo desperdięado. Se o arquivo ntćdio for muito menor do que a unidade de alocaęSo, a 
maior parte do espaęo de disco serd desperdięada. Por exemplo, em uma versao do MS-DOS ou Windows 95 relea- 
se 1 com partięao de disco de 2 GB, as unidades de alocaęSo eram 32 KB. portanto um arquivo de 100 caracteres 
dcsperdięava 32.668 hytes de espaęo de disco. A eficiencia de armazenamento conta a favor tle unidades de aloca¬ 
ęSo pequenas. No todo, no momento. a eficifincia de transferSncia tende a ser o fator mais importante hoje em dia. 
portanto o tamanho dos bloeos tende a crescer ao longo do tempo. 

0.2.3 Instruęóes de gerenciamento de diretório 

Nos primórdios da computaęao, as pessoas guardiwam seus programas e dados em cartSes perfurados em 
arquivos em seus escritórios. A medida que cresciant o tamanho e a quantidade de programas e dados. essa situa- 
ęao se tomou cada vez mais indesejavel. Nao demorou muito e surgiu a idćia dc usar a memória secunddria do com 
putador - por exentplo, disco — como local de armazenamento pat a programas e dados como uma alternativa aos 
arquivos de escritório. Infonnaęóes que podetn ser acessadas diretamente no computador sem a ncccssidade de 
intervcnęao humuna sao denominadas em linha (on-line), ao contrario das infonnaęóes fora dc linha (uff linę ), que 
requerent intervenęBo humana — por exemplo, inserir um CD-ROM antes quc o computador possa accssd-las. 

Infonnaęóes em linha sao annazenadas cm arquivos. portanto acesslveis aos programas por meio das instruęóes 
de K/S de arquivo discutidas anlerionnenle. Todavia. sao nccessarins instruęóes adicionais para monitorar informa- 
ęóes annazenadas em linha. reuni-las cm unidades conyenientcs e protegfi-las contra utilizaęSo nSo autorizada. 

O modo usual de um sistema operacional organizar arquivos em linha 6 agrupd-los em diretórios. A Figura 
6.21 mostra um exemplo de organizaęao de diretório. S3o fomccidas chamadas de sistema para as seguinles fun- 
ęóes, no mfnimo: 

1. Criar um arqttivo e entrar em um diretório. 

2 . Apagar um arquivo de um diretório. 

3. Renomear um arquivo. 

4. Mudar o estado dc protcędo de um arquivo. 

Ha varios esqtiemas de proteęao em uso. Uma possibilidade ć o propricldrio de cada arquivo especificar uma 
senlta secreta para cada arquivo. Quando tentar aeessar um arquivo. um programa deve fornecer a senha, que o sis¬ 
tema operacional entao verifica para ver se csta coneta. antes de peimilir o acesso. Um outro metodo de proteęao 
ć o proprietório de cada arquivo fornecer uma lista explfcila de pessoas cujos programas pudem aeessar aquele 
arquivo. 

Todo os sistemas operacionais modernos permitem que os usuarios mantenham mais de um diretório de 
arquivos. Cada diretório e. em si. um arquivo tfpico e, como tal, pode figurar na lista de um outro diretório. o 
quc dii origem a uma drvore de diretórios. Diretórios mdlliplos sao de particular utilidade para programadores 
que trabalham em diversos projetos, porque eles pudem agrupar todos os arquivos relacionados a um projeto em 
um só diretório. Enquanto eles estivercm trabalhando naquele projeto, n;lo serao perturbados por arquivos nao 
relacionados com ele. Os diretórios tamhćm siło uma maneira convenicntc de compartilhar arquivos entre mcm- 
liros de um grupo. 
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6.3 Instruęóes virtuais para processamento paralelo 

Alguns algoriimos dc computaęao podein ser prognunados cum maior convenifincia para dois ou mais proces- 
sos cuopcrativos que exeeulain em paralelo (isto e, simullaneamenle, em processadorcs diferenles), em vez de para 
um dnico processo Outros prueessos dc computuęao podein ser divididos em poręflcs, ipic entao pudem ser execu- 
ladas em paralelo para reduzir o tempo transeomdu para o processo de computaęSo tolal. Para que variu.s prnces- 
sos u abalhem juntos em paralelo, sao necessarias algumas inslruęóes virtuais. Essas instruęóes serao disculidas nas 
próximas seęóes. 

As leis da ffsiea dao mais urna raz5o para o alual inlercsse em processamento paralelo. Segundo a teoria espe- 
ciul da relatividade de Hinstein, e impossfvel transmilir sinuis elćtricos eom velocidade maior do que a da luz, que ć 
aproximadameme 31) em/ns no vacuo, menorem llos de eohre ou tibras óticas. Esse limite tern importanles implica- 
ęfies para a organi/aęao de computadores. Por exemplo, se urna CPU precisar de duduś da memória principal que 
esia a 30 cm de disianciu, levara ao menos 1 ns para que a requisiędo ehegue ale a memória e mais um nanossegun- 
do paru quc a respostu volte ale a CPU. Por conseqiiencia, para superar a barreini do nunossegundo, os eompulado- 
res leiau de serextremamente minusculos. Urna abordagem altemaliva para acclerar computadores ć construir maqui 
nas cum muitas t PI ls. Um computador eom mil CPUs de I ns pode ter a mesma capacidade de compulaęao de urna 
CPU eom um tempu ile cicln ile 0,001 ns, mas a primeira pode ser muito mais fścil e mais barala de construir. 

Em um computador eom mais de urna CPU. cadu um dos diversos prueessos cooperativos pode ser desigiuulo 
a sua própria CPU, u que permite que os processos prossigam simultaneamente. Se houver apenas um processador 
disponfvel, o efeito do processamento paralelo pode ser simulado fuzendo com quc o processador execuie cadu pro¬ 
cesso por vez duranle um curto perfodo de tempo. Em outrus palavras, o processador pode ser eompartilhado enlre 
viirius processos. 

A Figura 6.22 mostrn u dilerenęa enlre processamento verdadeiramente paralelo, com mais de um processu- 
dor Esico, e processamento paralelo simulado, com só um processador Esico. Mcsmo quando o processamento 
paralelo e simulado. e dlii considerar que cada processo tem sen próprio processador virtual dedicado. Os mesmos 
problemas de comunicuędo que surgem quando hd processamento verdadeiramenle paralelo tambern surgem no 
caso simulado. 
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6.3.1 Criaęao de processo 

Quando um programu deve ser execulado, ele deve cxccular como parte de ulgiun processo. Esse processo, 
como todos os outros. e carucierizado por um estado e um espaęo de endereęo por ineio do qual o programu e os 
dudos pudem ser acessudos. O estado inclui no minimo o contador de prograina, urna paluvru de estado dc progra¬ 
mu, um ponteiro dc pilha e os registrudores geruis. 

A maioria dos sistemus operacionais modentos permite que processos sejam criados c encerrados dinamica- 
mente. Fura tirar toiul proveito dessa caracterislica e oblcr processamento paralelo, e preeiso unia chamada de sis- 
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tema para eriar um novo proeesso. Essa chamada dc sistcma pode apenas fazer urn clone do chamador, ou pode per- 
mitir ao chamador a criaęito dc um proeesso que especifique sen estado inicial, incluindo seu programa. dados e 
endereęo de infcio, 

Em alguns casos, a eriaę3o de um proeesso (pai) nianlćm controle parciał, ou atć mesmo total, do proeesso 
criado (lilho). Com essa finalidadc, existem instruęócs virtuais para pemiilirque um processo-pai interrompa, rei- 
nicie, examine e encerre seus processos-filhos. Em outros casos, um pai tern menos controle sobre seus filhos: utną 
vez criado um proeesso, nSo lui nenhum modo de um pai interrompć-lo, reinicid-lo, examiniS-lo ou encerra-lo a 
foręa. Entao, os dois processos executam independentemente um do outro. 

6.3.2 Condięóes de disputa 

Ern muitos casos, processos paralelos precisam se comunicar e sineronizar de modo a realizar seu irabalho. 
Nesta seęiio, serii examinada a sincroniznę3o de processos e aigumas das dificuldades serao explicadas por meio de 
um exemplo dctalhado. Urna soluęao para essas dificuldades serii duda na seę3o scguintc. 

Considere urna situaęao em que lid dois processos independentes, o proeesso I e o proeesso 2. que se comu- 
nicam por meio de um butler compartilhado na nłemória principal. Por simpiicidadc. vamos denominar o proeesso 
I produtor e o proeesso 2 consumidor. O produlor calcula numeros primos e os coloca no buffer um por vez. O 
consumidor retira esses numeros do buffer um por vez e os imprime. 

Esses dois processos executam em paralelo a taxas diferentes. Sc o produtor descobre que o bufler estii chcio. 
cle vai dormir, isto ć, suspende lemporariamente sua operaędo 3 espera de um sinal do consumidor. Mais tarde, 
quando o consumidor tiver retirado um numero do buffer, ele envia um sinal ao produtor para acordd-lo; isto 6. cle 
o reinicia. De modo semelhante. se o consumidor descobre que o buffer estii vazio, ele vai dormir. Quando o pro¬ 
dutor liver cofocado um numero no buffer vazio, ele acorda o consumidor adomiecido. 

Nesse excmplo usaremos um buffer circular para comunicaęao entre processos. Os ponteiros in e out serao 
usados da seguinle maneira: in aponla para a próxima palavra livre (onde o produtor colocara o próximo ntiine- 
ro primo) e out nponta para o próximo numero a ser retirado pclo consumidor. Quando in = out, o buffer estii 
vnzio, como moslra a Figura 6.23(a). Após o produtor ter gerado alguns primos, a situaęao e a inostrada na Figura 
6.23(b), A Figura 6.23(c) ilustra o buffer após o consumidor ter retirado alguns desses mimeros primos para 
imprimir. A Figura G.23(d)-(f) representa o ereito da atividade continuada do buffer. A parte de cima do buffer ć 
logicamente contfgua 3 parte de baixo; isto ć. o buffer dii urna volta completa. Quando houver urna repentina raja- 
da de enlrada e in liver feilo a volta completa e esliver apenas urna palavra atrds de out (por exeniplo, in = 52 e 
out = 53), o buffer estii cheio. A ultima palavra nao ć usada; se fosse, nao haveria maneira dc dizer se in = out 
significa um buffer chcio ou um buffer vazio. 

A Figura 6.24 mostra um modo simples de implementar o problcma produtor-consumidor em Java. Essa 
soluęOo usa trfis classes: ni. producer e consumer. A classe m (principal) contćm aigumas definięOes de constan- 
tes, os ponteiros de buffer in e out, e o próprio buffer que, nesse exemplo, contćm 100 mimeros primos que vao 
de buffer |0) a buffer |99], 

Essa soluęao usa threads Java pata simular processos paralelos. Com essa soluęSo temos lima classe producer 
e urna classe consumer, que s3o instanciadas nas variśvcis p e c, respectivamente. Cada urna dessas classes ć deri- 
vada de uma classe bas i ca Thread, que tern um mćtodo run. O mćtodo run contćm o código para o thread. Quando 
o mćtodo start de um objęto derivado de Thread 6 invocado, um novo thread € iniciado. 

Cada thread 6 como um proeesso, cxceto o fato de que todos os threads dentro de um tinico programa Java 
executam no mesmo espaęo de endereęo. Essa caracterfstica 6 conveniente para que eles possam compartilhar 
um buffer em comum. Se o computador tiver duas ou mais CPUs. cada thread pode ser escalonado em uma CPU 
diferente, o que permiłe paraielismo verdadeiro. Se houver só uma CPU, os threads compartilham tempo na 
mesma CPU. Continuaremos a nos referir ao produtor e ao consumidor como processos (cisto que estamos rcal 
menie interessados em processos paralelos) ainda que Java suporte somente threads paralelos e nao processos 
verdadeiramente paralelos. 


Figura 6.23 

UtilizaęSo de um 
buffer circular. 
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publlc class m ( 

finał pubiic stanc ml BUF SIZE = 100, // bufter execula de 0 a 99 

Imał pubiic slatic long MAX PRIME - 100000000000L;// parę aqui 
pupile stalle ml m = 0, oul = 0. // ponlairos paia os dados 

publlc stalle long bufterf ] - naw long[BUF SlZE|, // primos aimazenados aqui 

pubiic statir. producer p; 1/ nome do piodutor 

publlc stalle consumer c, II nome do consumidor 


pubiic slatic void maln(Strlng args( |) { 
p = naw pioducer(); 
c = naw consumer(); 
p.siail(); 
c stail(); 

ł 


II classe Principal 
// crie o produlor 
// crio o consumidor 
II Inlcle o produlor 
// Inlcle o consumidor 


// Essa a urna funędo para Incrementar In e oul de modo cielico 

publlc slatic int next(int k) (if (K < BUF_SIZE - 1) retum(k, I). alse return(O);) 

) 


Fiyura 6 24 

Processamento 
paralelo com urna 
condięao (atal de 
disputa._ 


class producer extends Thread { 
publlc void run() I 
long prima - 2; 

whlla (prima < m.MAX PRIME) { 
prima - next_pnme(prlme): 

II (m.next(m In) == m.oul) suspend(); 
m bufter[m.ln| = prima; 
m.ln = m.next(m.ln); 

it (m.next(m.out) = min) m.c resumel); 

) 

I 


II classe produtor 
// códlgo prudutor 
// variśvel Iransltóila 


II declaraędo Pt 
// declaiaęao P2 
// declaiaęao P3 
// declaiaęao P4 
// declaraęao P5 


prlvate long next_prime(long prime){...) II tunęńo que calcula o próximo primo 

1 


class consumer extends Thread { 
publlc void run() { 
long emirp = 2; 


II classe consumidor 
II códlgo consumidor 
II vaiióvel transltória 


) 


wliilo (emirp < m MAX PRIME) { 

II (min = m.out) suspend(); 
emirp = m.butter(m out]; 
m.oul - m.next(m out); 

II (m out = ni next(m next(m.ln))) m p resume(); 
System out println(emlrp); 

} 


// declaiaęao Cl 
II declaraę&o C2 
// declaraęao C3 
// declaiaęao C4 
// declaraęao C5 


A funęao militaria nexi pemiite o facil ineremento de in e out, sem Cer de escrever cńdigo para verificar a con- 
dięło de volta coinpleta toda vez. Se o parametru para next for 98 ou menos, o próximo inteiro mais alto ć retoma- 
do. Conludo, se o parametru for 99, atingimos o finał do buffer, portanto 0 ó retomado. 

Precisamos de urn modo pelo qual qualquer um dos proccssos va donrtir por conta própria quando nao puder 
continuar. Os projelistas de Java entenderam a necessidade dessa habilidade e induirani os metodos suspeiul (dor- 
mir) c re.umir (despertar) na classe Thread ja na prinieira versao de Java. Gles san usados na Figura 6.24. 

Agora chegantos ao código propriamente dilo para o produtor e o consumidor. Em primeiro lugar, o produlor 
gera um novo niimcro primo em PI. Observe a utilizaęao de iii.MAX_PRIML aqui. O prefixt> ni. e nccessdrio para 
indicar que qucremos dizer o MAX_TRIMF. definido na classe w. Pela mesma ra/ilo, esse prefixo tambćm 6 ncccs- 
sdrio para in, oul, buffer e next. 

Entati o produlor vcrifica (ein P2) para ver se ni esta urna posięao atrds de out. Se esliver (por exemplo, in = 62 
e oul - 63), o buffer esia chcio e o produlor vai dormir chamando suspeiul em P2. Se o buffer nfui csiiver cheio, o novo 
niimcro primo ć inserido no bulter(P3) e in i inerementado (P4). Se o novo va)or dc in estiver urna posięSo ii (renie dc 
oui (PS) (por cxcmplo, in = 17 e om = 16), in e oni eram iguais antes de in ter sido inerementado. O produtor conclui 
i|uc o buffer cstuva va/io c quc o consumidor estuva, c ainda esta. dormindo. Pot couscguinle, o produlor chama resu¬ 
me paru despertar o consumidor (PS). Por firn. o produtor comeęu u procurar o próxinu> mimero primo. 

Em termos estiuturais. o programu do consumidor ć scmclhanle. Em primeiro lugar ć lei to um tesle (Cl) para 
ver se o buffer esta vazio. Se estiver, nSo hd nenhum trabalho para o consumidor fazer, portanto ele vai dormir. Se 
o buffer nao estiver vazio, cle retira o próxinto niimcro a ser impresso (C2) e inerementa om (C3). Se oul estivcr 
duas posięńes ii frente de in nesse ponto (C4), ele deveria estur urna posiędo a frenle de in antes de ser incremenłu- 
do dessa ultima vcz Como in — oul - I e a condięao 'buffer cheio’, o produlor devia estar dormindo e, portanto, o 
consumidor o acorda com resume. Por firn, o nuniero ć impresso (CS) e o crclo sc repele. 

Infelizincute, esse projeto coutem urna falltu fatul, como ilustrado na Figura 6.2S. Lemhre-sc dc que os dois 
proccssos execulain sein sineronia e a velocidades possivelmente vuridveis. Considere o caso cm que sobra sornen- 
te um mimem no buffer, na eniraila 21, e in — 22 e out = 21, como mostra u Figura 6.2S(a). O produlor estd na 
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Produtn' em P5 


rinura 6.25 

Falha do mecanismo 
de comunicaęao 
produtor-consumidor 



ProdutoiemPI ProdutoremPI despertar ao 

consumidor em C5 consumidor em Cl consumidor em C t 



declarnęSo PI procurando »m numero primo e o consumidor estd ocupado em C$ imprimindn o mimem na posięSo 
20.0 consumidor termina de imprimir o numero, faz o testc em CI e relira o ultimo mimem do buffer em C2. Entdo 
incrementa out. Nesse instantc, ambos, in c om, t£m o valor 22. O consumidor imprime o mi mero e em seguida vai 
para Cl. onde busca in e out na memória para compard-los, como mostra a Figura 6.25(b). 

Nesse exato momento, após o consumidor ter buscado in e out, mas anles de tS-los comparado, o produlor 
acha o próximo numero primo, coloca o numero no buffer em P3 e incrementa in em IM. Agora, in — 23 e 
out = 22. Em P5 o produtor descobre que in = next (out). Em outras palavras, in 6 I a mais do out, o que signi- 
fica que agora hd um item no buffer. Por conscguinte. o produtor conciui (incorretamente) t|ue o consumidor deve 
estar dormindo, portanto envia um sinal dc despertar (isto e, chama resume), como mostra a Figura 6.25(c). Claro 
que o consumidor ainda estd acordado, portanto o sinal de despertar 6 perdido. O produlor comeęa a procurar o 
próximo numero primo. 

Nesse instantc, o consumidor continua. Ele ja buscou in e out na memória antes que o produtor colocasse o 
liltimo niimcro no buffer. Como ambos tern o valor 22, o consumidor vai dormir. Agora o produtor acha um novo 
numero primo. Verifica os ponteiros e encontra in = 24 e out = 22, portanto entende que hd dois numeros no 
buffer (vcrdadc) c que o consumidor esta acordado (falso). O produlor continua em laęo aló que. por ftm, cnche 
o buffer e vai dormir. Agora ambos os processos estOo dormindo e assiin ficarao para sempre. 

Nesse caso, a dificuklade 6 que. entre o instante em que o consumidor buscou in e out e o instante em quc foi 
dormir, o produtor se esgueirou para dentro do buffer. descobriu que in = out + 1. entendeu quc o consumidor esta- 
va dormindo (mas cle ainda ndo estava) e enviou um sinal de despertar que foi perdido porque o consumidor aintla 
estava acordado. Essa dificuldade ć conhecida como condięao de disputa. porquc o succsso do metodo depende de 
quein vencc a corrida para testar in e om após om ter sido inerementado. 

O problema das eondięóes dc disputa 6 bem conhecido. Na verdade ć tao serio que. v;irios anos após a intro- 
duęiio da linguagem Java, a Sun mudou a classe Threadc removeu as ehamadas suspend e resume porque levavam 
a eondięóes de disputa eom tanta freqii£ncia. A soluęao oferecida foi urna soluęao baseada na linguagem mas, como 
aqui estamos estudando sistemas operacionais. discutiremos urna oulra soluęao suportada por muitos sistemas ope- 
racionais. incluindo UN1X c XP. 

6.3.3 Sincronizaęao de processos usando semaforos 

A condiędo de disputa pode ser resolvida por ao menos dois ntodos. Urna sokiędo consisle em equipar cada 
processo com uin ‘bit tle espera para despertar'. Sempre que urna inslruędo dc despertar for cnviada a um processo 
que ainda estd executando. seu bil de espera para despertar 6 ajuslado. Sempre que o processo for dormir quando o 
bit de espera para despertar estiver ajustado, ele 6 iinediatamente reiniciado e o bil de espera para despertar <5 libe- 
rado. O bit de espera para despertar armazena o sinal de despertar superfluo para ulilizaęSo futura. 

Ernbora resolva a condięao de disputa quando hd somente dois processos, esse mćlodo falha n<f caso geral de 
comunicaęao entre n processos. porque pode acontecer que n - 1 sinais de despertar tenham de ser salvos. Ś claro 
que cada processo poderia estar equipado com n - I bits de espera para despertar de modo a permitir que ele con- 
tasse at 6 n - I no sistema undrio, mas essa soluęao udo 6 funcional. 

Dijkstra (l%8b) propós urna soluęao mais geral para o problema da sincronizaęao de processos paralelos. Em 
algum lugar da memória hd algumas variaveis inteiras nao negativas denominadas semaforos. Duas ehamadas de 
sistema que operatu nos semaforos. up e down. sao fornecidas pelo sistema operacional. Up adiciona I a um senid- 
foro e down subtrai I de um semaforo. 

Se unia operaęao down for executada cm um semdforo que i maiordo que 0 mi momento em questao. o semd- 
foro 6 decrementado de I c o processo que estd executando down continua. Contudo, se o semdforo estiver em 0, a 
operaęao down nao pode concluir; o processo quc estd executando down e poslo para donuir e continua adormeci- 
do atć que outro processo execute urna up nesse semdforo. Para que possani ser monitorados. processos adormeci- 
dos sao cncadeados em urna fila. 







Taueia 6 2 Efeito de uma operaęao de semaforo. 


1 Instruęao 

Semaforo « 0 

Semaforo > 0 ,j 

Up 

Semdłoro = semaforo t 1; 
se o outro processo foi interrompido 
na ientaiiva de concluir uma instruydo 
down nesse semdforo, agora ele pode 
concluir down e conlinuar eiecutando 

Semdforo = semdforo -+• 1 

Down 

Processo pdra aid que o outro processo 
esecute uma instmyao up nesse semd- 
loro 

Semdłoro = semdforo - 1 


A instruęfiu up veritlca se o semdforo estd cm 0. Se esiiver, o outro processo estd donninrio nele e u semdforo 
e aumeinado de l. O processo i|uc estd dormindo entdo pode conduir a operaydo down que o suspendeu, reajustan- 
do o semdforo paru 0 e pernulindo que ambos os processos eontinuem. Urna inslruyao up em urn .semaforo que nao 
esta em /ero simplesmente o aumenla de 1. Em essencia, uin semaforo proporcioua urn contador para arma/enar 
sinais de des|>crtar para utilizayao futura, de modo quc eles nao sejam perdidos. Uma propriedndc essencial de ins 
truyóes de semaforo e que, tao logo um processo lenha iniciado uma instruyno cm urn semaforo, nenhum outro pro- 
cesso jHidc accssar o semaforo ulć que o primeiro lenha eonclufdo sua inslruyao ou tenlia sido suspenso quando len 
lava exeeular urna inslruyio down em um 0. A Tabela 6.2 resume as propriedades esscnciais dus ehamadas de 
si&tcma up e down. 

Como mcncionamos antes, Java tern uma soluydo baseada em linguagem para lidar cont condiyoes de dispu- 
ta e agora estamos discutindo sistemas operacionais. Por isso, preeisamos dc um modo para expressar utilizayao de 
semdforos em Java, ainda que ele ndo esteja na linguagem nem nas elasses padronizadas. Vamos fazer isso adnti- 
tindo que forum escritos dois metodos nativos, up e down, quc tuzem as ehamadas de sistcma up e down, rcspeeti- 
v antenie. Executando essas ehamadas cont inteiros ordinarios como parflmetros, temos um modo de cxpressar a uti- 
li/ayao de semdforos eiu programus Java. 

A Figura 6.26 niostra como a eondiydo de disputa pode ser eliminada por ineio da utiliz.ayfio de senuiforos. 
Dois scmaforos sdo acrcsccntados a classe hi: imiilable, que 6 inicialmente 100 (o tamanho do buffer), e Jilled, 
que e inicialmente 0 O produlor comeyu cxecutando em PI na I ; igura 6.26 e o consumidor comcya executando 
em Cl como antes. A chumada down em Jilled pdra o processador consumidor imediatamenle. Quando o produ- 
tor ttver cnconirado o primeiro ndmero primo, chama down tendo availoble como parilmelro, ajustando availa- 
hle para 99. Em P5 cle chama up tendo Jilled como parantciro, fazcndo Jilled igual a 1. Ilssu aęSo libera o con¬ 
sumidor, quc agora pode concluir sua chantada down quc estava suspensa. Nesse ponto, Jilled elit ambos os 
processos estdo executando. 

Agora vamos recxaminar a condiydo de disputa. Em um certo instante, In = 22, out = 21, o produlor esta em PI 
e o consumidor estd em C5.0 consumidor terminu o que eslava fazendo e chcga a C1, onde chama down em Jilled, quc 
linha o valor I antes da chumada e 0 após a chantada. Entdo o consumidor retira «t tiltimo numero ilo buffer e aumcnta 
uvuilul>le, quc passa para 1 (X). O consumidor imprime o numero e vai para CI. Um pouco antes de o consumidor poder 
chantar down, o produlor encontra o próximo primo e executu as declarayftes P2, P3 e P4 em rapida sucessao. 

Nesse ponto ,filled 6 0. O produlor estd prestes u aumentd-lo com uma up e o consumidor estd prestes a chn- 
ntar down. Se o consumidor executar sua instruydo em primeiro lugar, serd suspenso ale que o produlor o libere 
(chamando m/i). Por outro lado, se o produlor cxeculur em primeiro lugar, o semaforo sera ujustado para I e o con¬ 
sumidor nao serii suspenso de modo algum. lim ambos os casos, nenhum sinul de despertur licu perdido. E ciuro 
quc essa era nossa meta quundo tnirodu/imos senuiforos. 

A propriedade essencial das operayoes de senidforo e que clas sao indivisfveis. Uma vcz iniciada uma opera 
yao de senidforo, nenhum outro processo pode usar o senidforo atć que o primeiro proccsso tenhu eonclufdo a ope- 
raydo ou eniao lenha sido suspenso na teniativa. Ademais, com semdforos, udo se perdem sinais de despertur. Por 
comparaydo, us declaraydcs il da Figura 6.24 nao sdo indivisfveis. Entre a avaliaydo da condiydo e a execuydo da 
declaruydo selecionatla, um outro processo pode cnviar um sina! dc despertur. 

Na vcrdadc, o piohlemu da siucroni/ayao de processo fni eliminado declurando que as ehamadas de sistcma 
up e down feitus por up e down sdo iitdivisfveis. Paru qnc essas operayócs sejam indivisiveis, o sistcma operacional 
deve proibir quc dois ou mais processos usent o mcsino senidforo ao niesmo tempo. No mfrtimo, uma vez feita uma 
chumada tle sistema up ou down, nenhunt outro códigu usuario serd executado atd que a chantada lenha sido con- 
clufda. Em sistemas com um tinico processador, ds vezes sdo intplemenlados semdforos peta desabilitayao dc inter- 
rupyóes durante operayóes de senidforo. Em sistemas multiprocessadores, esse estratagemu nao funciona. 

Siucroni/ayao por semdforos ó uma lecnicu que funciona para qualquer ndmero arbitrdrio de processos. Vdrios 
processos podem esiar donuindo, tentando concluir uma chantada de sistema down no ntesnto senidforo. Quundo, 
por fint, algum outro processo execu!a uma up nuqucle semaforo, um dos processos que estd d espera ohtent per 
ntissao de concluir sua down e conlinuar execulando. O valor do semdforo pcrmanece 0 e os outros processos eon 
linuant esperando. 
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lima analogia pode esdarecer melhor a natureza dos semśforos. Imagine urn piquenique eom 20 limes de 
voleibol divididos em 10 jogos (processos), cada time jogando em sua própria quadra, e um grandę ceslo (o sema- 
foro) que contdm as bolas do jogo. Infelizmenle. htf apenas 7 bolas disponfveis. Em qualquer instante. hd enlre 0 e 
7 bolas no ceslo (o semdforo tern um valor enlre 0 e 7). Colocar urna bola no ceslo 6 unia up porque aumenta o valor 
do semdforo: relirar urna bola do ceslo e uma down porque reduz o valor. 

No infcio do piqueuique. cada quadra envia um jogador para pegar uma bola na ccsta. Scte deles. em seqilSn 
cia, conseguem pegar uma hola (concluem down); tres sdo foręados a esperar por uma bola (islo ć. nao concluem 
down). Seus jogos sdo suspensos temporariamente. Em um dado instanle, um dos oulros jogos lermina e uma bola 
e devolvida ao ceslo (executa uma up). Essa operaędo permile que um dos tr6s jogadores quc estao esperando perło 
do ceslo obtenha uma bola (conclua uma down inacabada), o que permile que um jogo continue. Os oulros dois 
jogos permanecem suspensos ate que mais duas bolas sejam devolvidas ao ceslo, Quando mais duas bolas vollarem 
(mais duas up sao esccutadas), os dois ultimos jogos podem prosseguir. 


Figura 6.26 

Processamento 
paralelo usando 
semaforos. 


public class m { 

finał public stalle Inl BUF SIZE = 100; 

flnal public statlc long MAX PRIME = 100000000000L; 

public slalic inl In = 0, out = 0; 

public statlc long buffer() = new long[BUF SIZE); 

public static producer p; 

public static consumer c; 

public static int filled = 0. available - 100; 


// buffer vai de 0 a 99 
II pate aqui 

// ponleitos para os dados 
// prlmos armazenados aqui 
// nome do produtor 
II nome do consumidor 
// semaforos 


public static void main(String args( ]) { 
p = new producer(); 
c = new consumer(); 
p start)); 
c.start)); 

) 


// classe prlncipal 
// crie o produtor 
II crie o consumidor 
II inicie o produtor 
II inicie o consumidor 


II Essa 6 um lunędo para inerementar in e out cicllcamente 

public static Int next(lnt k) {lf (k < BUF_SIZE - 1) return(k+1); else return(0);} 

) 


class producer extends Thread { 

native void up(int s); native void down(int s); 
public void run() { 
long prime = 2; 

whlle (prime < m.MAX PRIME) ( 
prime next prime(prlme); 
down(m.available); 
m.bułferjm.in] = prime: 
m.ln = m.next(m.ln); 
up(m.fllled); 

) 

) 


// classe produtor 
II mótodos em semaforos 
// código produtor 
II varidvel transitória 


//declaraęao Pi 
// declaraęao P2 
// declaraęao P3 
// declaraęao P4 
II declaraęao P5 


private long next prime(long prlme)(...) 

> 


// tunęao que calcula o próximo primo 


class consumer extends Thread { 
natlve vold up(int s); native void down(int s); 
public void run() { 
long emirp = 2; 

whlle (emirp < m.MAX PRIME) ( 
down(m.filled); 
emirp = m.buffer[m.out]; 
m.out = m.next(m.out); 
up(m avallable); 

System.oul println(emirp); 

) 

) 


II classe consumidor 
// mótodos em semdforos 
// código consumidor 
// varlśvel transitória 


// declaraęao C1 
// declaraęSo C2 
// declaraęao C3 
// declaraęao C4 
// declaraęao C5 


6.4 Exemplos de sistemas operacionais 

Nesta seęao continuarcmos a disculir nossos exemplos de sistemas. o Pentium 4 c a UltraSPARC III. Para cada 
um examinaremos um sistema operacional usado naquelc processador. No caso do Pentium 4. usaremos o Windows 
XP (denoininado XP daqtii em diante, para abreviar); para a UltraSPARC Ul usaremos o UNIX. Uma vcz que o 
UNIX € mais simples e, sob muitos aspectos, mais elegante, comeęaremos com ele. Ademais, o UN1X foi projeta- 
do e implementado em primeiro lugar e teve grandę influencia no XP. portanto essa ordem faz mais sentido do que 
a ordem inversa. 



6.4.1 Introduęao 

Ncsla seyiio daremos urna breve introduęao de nossos dois exemplos de sislemas operacionais, IJNIX e XI', 
foealizaiulo a históiia, a estrutura e a.s chamadas de sislema. 


UN1X 

O UNIX foi desenvolvido no Bell L.abs no infcio da decada de 1970. A primeira versao foi escrita por Ken 
Thompson em assembler para o minieomputador PDP-7, que foi logo seguida por unia versao para o PDP-11, escri¬ 
ta eni unia nova linguugem denominada C, que foi inventada e implementadn por Dennis Ritchie. Em 1974, Ritchie 
c seu colegu, Ken Thompson, pubiicaram um artigo sobre o UNIX (Rilehie e Thompson, 1974) que marcou epoca. 
Mais tanie-eles reccberam o prestigioso premio ACM Turing Award (Ritchie, 1984; Thompson, 1984) pelo traha- 
Iho c|uc descreveram nes.se artigo. A publicaę&o do artigo estimulou muitas universidades a pedir urna cópia do 
UNIX ao Bell Labs. Urna vez que, na epoca, a AT&T, enipresa rnatri/. do Bell Labs, era um monopólio regulamen- 
tado e nuo tinlia permissdo para atuar no negócio de computadores, ela nao se opos a licenciar o UNLX para univer- 
sidades, medianie urna modesla taxa. 

Por uina dessas coincidćncias que muitas vezes moldam a historia, o PDP-11 era o computador preferido dos 
departamentos de ciencia da computaęao de quase todas as universidades, e os sistemas operacionais que aconipa- 
nhavam o PDP-11 linbam grandę fama de terrfveis, tanio entre professores quanto entre alunos. O UNIX rapida- 
mente preenchcu esse vacuo, alem do mais era fomecido com o código-fonte completo, o que permitia quc todos 
fizessem experimentos inlerminaveis com ele. 

Urna das muitas universidades que adquiriu um UN1X logo de inteio foi a Universidade da Califómia cm 
Berkeley. Como o código-fonte completo eslava dispontvel, Berkeley conseguiu fazer alteraęóes subslanciais no 
programu. As mais importanles forum urna versao para o minieomputador VAX e u adięao de memória virtual pagi- 
nada, a exlensao dos nomes de arquivo de 14 para 255 caraeteres e a inclusdo do protocolo de rede TCP/LP, que 
agora & usado na Internet (em grandę parte porque ele estava no UN1X de Berkeley). 

Enquanto Berkeley lazia todas essas inudanęus, a própria AT&T conlinuava a desenvolver o UN1X, o que 
resultou no System III em 1982 e, em seguida, no System V em 1984. No finał da dćcuda de 1980, estuvam em uso 
duas versóes diferentes e basiaiue incompativeis do UN1X: o UNIX de Berkeley e o System V. Essa cisSo no tnundo 
do UN1X, junto com o falo de ndo existir nenhum padrao para formatos de programas hindrios, inibiu muito o suces- 
so comercial do UN!X porque os fabricantes de software nao podium escrever e montar um pacote de programas 
UNIX com a expecialiva de que eles executariam em qualquer sislema UNIX (como era rotineiro com o MS-DOS). 
Após muita polemica, foi criado um padrao denominado POSIX (Portable Operational System-IX) pelo IFF.F 
Standurds Board. Esse padrao tambem e conhecido por seu mimero de padrao no IEEE, PI003, c mais larde tor- 
nou-se um padrao intemacional (International Standard). 

O padrao e dividido em muitas partes, cada unia referente a unia drea diferentc do UNIX. A pritneiru patie, 
PI003.1, dellne as chamadas de sislema; a segunda parte, PI003.2, dellne os programas utilildrios biisicos e assiin 
por dianie. O padrao P1003.1 dellne cerca de 60 chamadas de sislema quc todos os sislemas que segucm o padrao 
devem suportar. Siło as chamadas bdsicas para ler e escrever arquivos, criar novos processos e assim por dianie. 
Pralicamente todos os sislemas L1NIX agora suportam as chamadas de sislema P1003.I. Todavia, muitos sistemas 
UNIX tambćm suportam chamadas de sistema extras, em especial as definidas pelo System V e/ou as presentes no 
UNIX de Berkeley. Geralmente elas adicionam ale 200 chamadas dc sistema ao conjunto. 

Em 1987, o autor deste livro lanęou o código-fonte para urna versao pequena do UNIX, denominado MIN1X, 
para ulilizayao em universidades (Tanenbaum, 1987). Um dos alunos que estudou o M!NIX em sua universidade 
em Helsinki e o esecutou no PC que tinha em casa foi Linus Torvalds. Após se familiarizar totalmenle com o 
MIN1X. Torvalds decidiu escrever um clone desse código-fonte, que denominou Linux e se tomou muito popular. 
Ambos, M1NIX e Linux, estao de acordo com o padrao e quase (udo que foi dito sobre o UNIX nesle capitulo tam¬ 
bem se uplica u eles, a meiios que digumos o contrario. Emboru todas essas varianles do UN1X sejarn muito dile- 
rentes internamente, em grandę patie deste capitulo vamos disculir sua inlerface de chumada de sistema, que ć. em 
todos os casus, um superconjunio. 

O sistema uperacional para a UltraSPARC Ul ć baseado no System V e 6 denominado Solaris. Tambćm supor- 
ta muitas das chamadas de sislema do UN1X de Berkeley. 

Unia divisSo aproxiniadu tlas chamadas de sistema do Solaris por categoria ć duda na Tabela 6.3. As charna- 
das de sistema de gerenciamento de urquivo e de diretório sao as maiores e as mais importanles categorias. Grandę 
parte delas vem do P1003.1. Uma fruęao relativiunente grandę das outras e derivada do System V. 

Urna area quc se deve em grandę parte ao UN1X de Berkeley, mais do que ao System V, e o trabalho em rede. 
Berkeley inventou o conceito de um soquete. que e a extremidade finał de uma conexno de rede. As lomadas de 
qualro pinos para conexao de telefones servem como modelo para esse conceito. Um processo UNIX pode criar um 
soquete. ligur-se a ele e estabelecer uma conexao para um soquete em uma maquina distante. Entao, pode trocar 
dudos em umbas as direęńes por incio dessa conexao, normalmente usando o protocolo TCP/1P. Visto que a tecno- 
logia de rede exisle no UNIX hd dćcadas e 6 muito estdvel e muduru, uma Iraędo subslancial dos servidores da 
Internet executa UNIX. 
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Tabela 6.3 Divisko aproxlmada de chamadas de sistema do UNIK. 


Gerenciamento de arquivo 
Gerenciamenlo de diretório 
Gerenciamento de processo 
Gerenciamento de memória 
Obter/ajustar par&metros 

Datas e horkrios 

Redc 

Divcrsos 


Abrir, ler. escrcver. fechar e Woqucar arqnivos 

Criar e apagar diretórios; mover arquivos de um lado para outro 

Gerar, encerrar, monitorar e sinalizar processos 

Compartilhar meiiiórin entre processos; proteger pkginus 

Obter ID de usukrio, gmpo, processo; ajustar prioridade 

Ąjustar horkrios de acesso a afqttivos: usar temporizador de intervalo; 

esecuęfio de perfil 

Estabelecer/accitar conexao; eiwiar/rcceber mensagcns 

Habilitar contabilidade; manipular cotas de disco; reiniciar o sistema 


Como hk muitas implementaęOes de UNIX, ć diffcil dizer muita coisa sobre a estnituni do sistema operacional. 
visto que cada urna e um pouco diferente de todas as outras. Todavia. em geral, a Figura 6.27 se aplica k maioria 
delas. Na parte de baixo hk unia camada de drivers de dispositivo que separam o sistema de ;trquivos do hardware 
puro. Originalmenle. cada driver de disposilivo era escrito como urna entidade independente. separada de todas as 
outras. Esse arranjo gerou grandę duplicaęko de esforęos. urna vez que muitos drivers tern de lidar com fIuxo de con- 
trole, tratamento dc erro, prioridades. scparar dados dc controle e assim por diante. Essa obscrvaę5o lcvou Dcnnis 
Ritchie a desenvolver urna estrutura denoininada fluxos para escrever drivers como módulos. Com um fluxo e pos- 
sfvel estabeiecer unia conexao de duas vias de um processo usuario para um disposi(ivo de hardware e inserir um ou 
mais módulos ao longo do caminho. O processo usuiirio passa dados para o fluxo. que entSu sao processados ou trans- 
formados por cada módulo. atć chegarem ao hardware. Para dados que chegam. ocorre o processamento inverso. 

Em cima dos drivers de dispositivo vem o sistema de arquivos. que gerencia nomes de arquivo. diretórios, alo- 
caęSo de bloco de disco, proteęko e rnuito mais. Parte do sistema de arquivos ć urna caclie de blocos pani conter os 
blocos mais recentemente lidos do disco, caso logo eles sejam uovainente necesskrios. Urna taricdadc dc sistemas 
de axquivo foi usada ao longo dos anos, incluindo o sistema de arquivos rkpitlo de Berkeley (McKusick el al.. 1984). 
c sistemas de arquivo log-estruturados (Rosenblum e Ousterhout. 1991; e Seltz.er et al.. 19931. 

A outra parte do micleo UNIX e a poręko de gerenciamento de processos. Entre suas vkrias outras funęóes. ela 
manipula IPC (InterProcess Communication — comunicaęao interprocesso). que pertnite que processos se comu- 
niquem um com o outro e sincronizem. para evitar condięóes de disputa. Vdrios mecanismas sao fomecidos. O códl- 
go de gerenciamento de processos tambćm manipula escalonamento de processos, que 6 baseado em prioridades. 
Os sinais, que sao urna forma (assfncrona) de interrupęao de software, sao gerenciados aqui Por firn, tambem o 
gerenciamento de memória e feito aqui. A maioria dos sistemas UNIX suporta memória vir1ual paginada por 
demanda, hs vezes com algumas caracterfsticas extras, como a capacidade de vdrios processos compartilharem 
regióes comuns de espaęo tle endereęo. 

Dcsdc scu infcio, o UNIX tentou ser um sistema pequeno, de modo a reforęar a confiabilidade e o dcscmpe- 
nho. As pritneiras versfies do UN1X cram intciramcnte bascadas em tcxto, c usavam tcrminais quc podiom apresen- 
tar 24 ou 25 linltas de 80 caracteres ASCII. A interface de usukrio era manipulada por um programu de nfvel usuk- 
rio denominado sliell, ou inlerprctador de cornandos. que ofcrecia urna interface de linha tle comando. Urna vez 
quc o shell nao era parte do nitcleo. era fkcil adiciunar novas sliells ao UNIX c. com o passar do tempo, \ krias forom 
inventadus. cada vez mais sofisticadas. 

Mais tarde, quando surgiram os tcrminais grkftcos. o MIT desenvolvcu um sistema de jancias para o UNIX. 
denominado X Windows. Um pouco mais tarde, urna GUI (Graphieal User Interface — interface grafica de 
usuario) tolalmente desenvolvida. denominada Motif, foi colocada sobre o X Windows. Para se manier fiel k filo- 
soila do UNIX de ter um micleo pequeno, quase lodos os códigos do X Windows e da Motif executain em modo 
usukrio. fora do micleo. 


Shell | | Progtama usuArlo | 


Interface do chamnda de sistema 

Sistema de arqulvos 

Gerendamenli) de processo 

| Cache de blocos | 

IPC | | Escalonamento | 

Oriyern de dlsposllivo 

1 SI hals 1 1 Gerenciamento 1 

1- 1 | de memória ] 

Hardware 


Estmtura de um 
sistema UN1X tipico. 


Modo 

niicleo 



Windows XP 

Quundo foi lambado cui I l J81, o IBM PC odginał viuha cquipado com lun sistcmu operacional dc 16 bits, dc 
modo rcal, usudrio tinico, huscado ciii linlias dc comando, dcnominado MS-DOS 1.0. Esse sistema operacional cuu- 
sistia cm K KB dc cńdigo dc memńria residente. Dois unos dcpois. aparcccu um sislcma muito mais |X)deroso. dc 
24 KB. o MS-DOS 2.0. que coniinha um processador dc linha dc comando (shell), com vdrias caraclerfsticas 
emprcstadas do IJNIX. Quando a IBM lanyou o PC/AT. huscado no 286. cm 1984. ele veio equipado com o MS- 
DOS 3.0, enlao com 36 KB Ao longo dos anos, o MS-DOS conlinuou a incorporar novas caracteristicas, mas ainda 
era um sislcma bascudo cm linhas de comando. 

Inspirada pclo sucesso do Apple Macintosh, a Microsoft decidiu dar ao MS-DOS urna intcrface grafica de 
usudrio, ii quul deu o nomc dc Windows. As primeiras tres vers6es do Windows, culminando no Windows 3.x, nao 
cram sistemas operacionais mdadeiros, mas interfaces grdlicas dc usudrio sohre o MS-DOS, que ainda estavu no 
conlrole da mdquinu lodos o programas executavam no mesmo cspuęo dc endereęo c um hug cm qualquer um dclcs 
poderia fazer todo o sislcma parar de vez. 

O lanęumenlo do Windows 95 cm 1995 ainda nilu eliminou o MS DOS, embora Icnliu introduzido urna nova ver- 
sao, 7.0. Junlos, o Windows 95 c o MS-DOS 7.0 conlinham gramie parte das curactcristicus dc um sistcmu operacio- 
nal totulmcutc desenvntvulo, incluindo mcmória virtuul, gcrcnciamcnto dc proccsso c multiprogramaęao. Todavia, o 
Windows 95 nao cru um progi anta dc 32 bits complcio. Coniinha grundes poryócs do unligo cńdigo de 16 bits (bem 
como ulguns códigos dc 32 bits) c ainda usavu o sistema de urquivos do MS-DOS, com quasc lodas as suas limitaęfles. 
As unicas raudanęas importuntes no sistema de arquivos forum a udięao de nornes dc arquivo longos no lugar dos nomes 
dc arquivo dc 8 + 3 curactercs perinilidos cm MS-DOS, c a capacidude de ter mais de 65.536 blocos cm um disco. 

Mesmo com o lunęumento do Windows 98 em 1998. o MS-DOS coniinuava la (agora na versilo 7.1) e execu- 
tava cńdigo dc 16 biis. Embora um pouco mais dc funcionalidade tenhu migrado da purte do MS-DOS para a parte 
do Windows, e um leiaute de disco adequado para discos maiores agora fosse padrao, ent essencia o Windows 98 
n4o era muito diferenie do Windows 95. A principal diferenęa era a intcrface de usudrio, que promovia urna ime- 
gruydo mais esircita cutre o computador, a Internet c u tclcvisao. Poi cxatamcnte essa integralno que atraiu a aten- 
V'ao do Departamentu dc Justięa dos Eslados Unidos, que eiilrou com um proccsso judiciul contra a Microsoft ale- 
gando quc u empresa cru um monopólio ilegal. O Windows 98 foi seguido pclo Windows Millennium Edilion (ME), 
dc cuna vida, quc era um Windows 98 ligeiramente melhorado. 

Eiujuanlo ocorriam lodos csses descnvolvimentos, a Microsoft tambćm sc ocupava de um sislema operacional 
de 32 biis. complciamcnie novo, que esiava sendo cscrito u partir do zero. Essc novo sistema foi denominadn 
Windows New Technology, ou Windows NT. De imcio, essc sistema era apenus urna suhslituięao melhorudu de 
lodos os outros sistemas operacionais para PCs com processadorcs Intel; porćnt, por ulguma raziło, dcmorou um 
pouco paru engrenur. c mais tardc foi redirecionado para u fuixa de mercudo dc muior puder aquisilivo, oude encon- 
trou um niebo. A segtuulu vcrsao do NT foi denominada Windows 2000 c tomou-sc a versao principal. tambćm paru 
o mercado dc computadores dc mesa. O succssor do Windows 2000 foi o XP, mas as altcraęócs forum relalivainen- 
tc mimisculas. O XI' ć, cm cssćncia, um Windows 2000 ligeiramente melhorado. 

O XI’ ć yendido cm duas vers5es: servidor c cliente. Essas duas versńes siło quuse idśnticas e geradas a partir 
do mesmo cddigo-fonte. A versflo scrvidor ć ilirigida a mdquinus que funcionam como servidores de arquivo e 
imprcssSo bascados cm 1.AN c tem caracteristicas de gerenciainento mais claboradus do quc a vcrsio cliente, que 
ć dirigida pat a computadores dc mesa de um sń usudrio. A versdo servidor tem urna variuntc (cmprcsarial) dirigida 
a graudes redes. As vurias sersóes tern ajustes diferentes, cuda unia otimi/ada para o umbieute pretendido. Excelu 
por essas pcqucnas diferenyus, todas as versńes sao, em cssćncia, as mes mas. Na verdade, quase lodos os arquivos 
cxccutśvcis sao idĆnticos em todas as versócs. O prńprio XP dcscobrc de que versao ć consuitandu urna variavel em 
urna estrulura de dados interna (o registru). A iicenęa nao pcrmilc quc os usudrios mudem essa varidvel e, com isso, 
coiwertam u vcrsao cliente (barata) em versńes semtlor ou empresariul (muito mais caras). Daqui em diante nao 
furcmos ncnlunna dislini^ao cutre essas versoes. 

O MS-DOS c lodas as outras \ersoes anteriores do Windows cram sistemas de usudrio unico. O XP, contudo, 
suporla nuiltiprogramaęao. portanto varios usudrios |X)dcm trahalhar na nicsma mdquina ao mesmo tempo. Por 
cxcmplo, um servidnr dc rede pode ter mulliplos usudrios ligados simullaneaincnte por urna rude. cuda um accssun- 
do scus prńprios aiquivos. 

O XP e um verdadeiro sistema operacional dc 32 bits com mulliprogrunuiędo Suporta varios processos usuń 
rios, cudu quul com um cspaęo dc endere^o virtuul completo de 32 bits paginudo por demundu. Alem do mais, o 
prńprio sistcmu ć iiilcirumcnie cscrito como cńdigo dc 32 bits. 

IJmu dus mclborius originuis do NT cm rclaęao ao Windows 95 foi snu estrulura inodular. Consistiu cm um 
nticleo moderudumcnic pcqucno quc cxecutava em modo ntlcleo, mais varios processos servidores que executavam 
em modo usuoi io. Processos usudrios interagiam com os processos servidorcs usando o modelo clienie-servidur: 
um cliente cnviava unia mensagem de requisięilo a um servidor, e o scrvidor realizava o trabalbo c rctornava o resul- 
tado para o cliente por incio de urna segunda mensagem. Essa estrulura modulur fucilitava sua migraęao para varios 
computadores ulćm dos da linha Intel, entre os quais DEC Alpbu, IBM PowerPC e SOI MIPS. Contudo, por qucs- 
lao dc desempenho, u partir do NT 4.0, grandę parte do sislcma foi colocada de volta no micleo. 

Poderiamos continuar a discutir por longo tempo a estrutura interna do XP c lambem sua intcrface de chamuda 
de sistema. porćm. como nosso interesse primordial e a mdquina virtual apresentada (Mir varios sistemas operacionais. 
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Figura 6.28 

Estmtura do 
Windows XP. 

Execullvo • 


isto e. as chamadas de sistema, faremos apenas uma brcve descrięSo da estrulura do sistema e cntao passaremos para 
a interface de chamada de sistema. 

A estrulura do XP e ilustrada na Figura 6.28. Consistc em vdrios módulos que sao eslruturados em canta- 
das e trabalham juntos para implementar o sistema operacional. Cada módulo tern alguma funęao particulnr e 
uma interface bem dellnida com os outros módulos. Quase lodos os módulos sdo escritos em C. embora parte da 
interface do disposilivo grdfico seja escrita em C++, e uma minuscula poręao das camadns mais baixas seja 
escrita em linguagem de monlagem. 

Na parte de baixo esld uma fina catnada denominada camada de abstraęao de hardware. Sua tarefa t ł apre- 
sentar ao resto do sistema operacional dispositivos abstratos de hardware despidos dos adendos e das idiossincra- 
sias com os quais o hardware real ć tflo ricamente dotado. Entre os disposilivos modelados estao caches fora do chip. 
temporizadores, barramentos de E/S, controladores de interrupęao e eoniroladores DMA. Expor esses dispositivos 
ao resto do sistema operacional sob forma idealizada facilita a migraęao do XP para outras plataformas de hardwa¬ 
re. uma vez que as modificaęóes requeridas estao concentradas em um dnico local. 

Acima da camada de abstraęao de hardware estd uma camada que conlćm o nilcleo e os drivers de dispositi- 
vo. O nócleo e todos os drivers de dispositivo tSm acesso direto ao hardware quando necessśrio, porque contfim 
código depcndente de hardware. 

O nucleo suporta as funęóes basicas do sitema operacional, interrupęao. exceęao e trntamenlo de exccęao, 
escalonamento e sincronizaęSo de processo, sincronizaęao de multiprocessador c gerenciamento de tempo. A fina- 
lidade dessa camada e tomar o resto do sistema operacional completamente independcnte do hardware c. por isso. 
de alta portabilidade. O nucleo rcsidc permanentemente na memória principal e nao pode sofrer preempęao, embo¬ 
ra possa entregar o controle temporariamcnte para atender interrupęóes de E/S. 

Cada driver de dispositivo pode controlar um ou mais dispositivos de E/S, mas um driver de dispositivo tam- 
Wm pode fazer coisas nSo relacionadas com um dispositivo especffico, como criptogralar uma corrente de dados e 
atć mesmo prover acesso a estruturas de dados do nucleo. Visto quc usudrios podem instalar novos drivers de dis- 
positivo, eles t6m o poder de afetar o nucleo e corromper o sistema. Por essa raz3o, os drivers devcm ser escritos 
com muito cuidado. 

Acima do nucleo e dos drivcrs de dispositivo est;1 a poręao superior do sistema operacional. denominada exe- 
culivo. O executivo ó independcnte de arquitetura e pode ser portado para novas mśquinas com um esforęo relati 
vamente pequcno. Ele consiste em trfis camadas. 

A camada mais baixa contćm os sistemas de arquivoe o gerenciador de objęto. Os sistemas de arquivo supor- 
tam a utilizaęfio de arquivos e diretórios. O gerenciador de objęto manipula objetos conhecidos pelo nócleo. F.ntre 
eles, processos, threads (processos levcs dentro de um espaęo de endereęo), arquivos, diretórios, semalóros, dispo- 
sitivos de E/S, temporizadores e muilos outros. O gerenciador de objęto tambem administra um espaęo de nontes 
no qual objetos recóm-criados podem ser colocados de modo que possam ser referenciados mais tarde. 

A camada seguinte consiste em seis partes principais, como mostra a Figura 6.28. O gerenciador de E/S for- 
necc uma estrulura para gerenciar dispositivos de E/S e sereięos genćricos de E/S. Ele usa os sen ięns do sistema 
dc arquivos que, por sua vez. usa os drivers de dispositivo, bem como os servięos do gerenciador de objęto. 

O gerenciador de cache de nrquivo esta envolvido com o gerenciamento de blocos de arquivo e em auxiliar 
o gerenciador de memória virtual a delerminar quais blocos manier na memória para utilizaęao futura. Tambem esta 
cnvolvido com o gerenciamento de arquivos que sao mapeados para a memória. 

t\ possfvel configurar o XP com multiplos sistemas de arquivo, caso em quc o gerenciador dc 'cache traba- 
Iha para todos eles. Quando hd necessidade de um hloco. o gerenciador de cache ć quc deve fornecO-lo. Caso nao 
tenha o bloco, ele chama o sistema dc arquivos adequado para obte-lo. Uma vez que arquivos podem ser mapea¬ 
dos para espaęo de endereęo de processos, o gerenciador de cache deve interagir com o gerenciador de memória 
virtual para proporcionar a necessdria consistóncia. 
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O gercnciudor de nieinóriu virtual implementu a arquitctura de niemória eirtual dc paginaęno por demanda 
do XI*. Ele gerencia o mapeamento de paginas virluais para quadros de paginas ffsicas. Por eonscqiiencia, impóe as 
regras de proteęan que rcstringem cada proecsso a aeessar somenle as paginas que perlencem a seu espaęo de ende- 
rcęo, e nao a esp&ęos de endercęo de outros processos (exceto sob circunstaneias especiuis). Kle tambem manipula 
eertus chamadas ile sisleina rclacionadas com a niemória virtual. 

O gcrenciudor de processos e thrcads mani|iula processos e threads, incliiindo sua criaęao e destruięao. Lle 
se preocupa com os meeanismos usados para gereneia-los, e nao com as regias de sua ut i lizano. 

O monitor de relcrćneia de seguranęu impóe o eluborado mecunismo de segurunęa do XP. que obedece 
aos requisilos C2 do Livro Laranja (Orange Book) do Dcpanamenlo de Defesa dos Eslados Unidos. O Livro 
l.uranja especifica uin grandę numeru de regrus iis quais um sistema deve obcdecer, comeęando com login uuicn- 
licado e o modo de manipulaędo do controle de acesso, c ciiegando ale o falo de que as paginas virtuais devem 
ser zeradas antes de ser reulilizadas. 

A interface gra fi ca de dispositivo manipula gerenciamenio de imagem para monitor c impressoras. Fomece 
chamadas de sistema que perinitem que programas usuarios escrevam no monitor ou eni impressoras de modo itule- 
pendente do di$posiiivo. Tambem contem os drivcrs de disposiiivos de liardware para salda grńfica, Em versftes do 
XP anteriores a XP 4.0, cła estava no espaęo usuario, mas o dcsempenho era desapontador, portanto a Microsoft a 
passou paru dentro do nucleo paru aumentur a velocidadc. O módulo Win 42 tambem manipula grandę parte dus cha¬ 
madas de sistema Tambem ele estuva originalmente em espaęo de usudrin e tambem cle foi transferido pata o 
nucleo para mclhurar o descmpcnbo. 

Em cima do execulivo esta unia fma camadu denominada sen ięos de sistemu. Sua lunęao e lomecer urna 
interface paru o exccutivo. Ela aceita as vcrdadeiras chamadas de sislema XP e chama oulras parłeś do cxcculivo 
para que elus sejam executadas. 

Pora do nticleo esldo os programas usudrios c o subsistema ambiental. O subsistemu umbienlal e fomecido 
porque programas usuarios udo devem fazer chamadas de sistema diretamcnte (embora sejam lecnicamente cupa- 
zes de la/ć-las). Em ycz disso, o subsistema ambiental exporta um conjunlo de chamadas de funędo que os progra- 
inas usudrios podem usar. Originalmente havia tres subsistemas ambienlais, Win32 (paru NT, Windows 2000, XP 
ou alć mes mu para programas Windows 95/98/ME), POSlX (para programas UNIX que foram portudos) e OS/2 
(para programas OS/2 quc foram portados). Desses, somente o Win32 6 suportado. Todaviu, agora existe um novo 
módulo Serviees para UNIX que da modeslo suporte ao UNIX. 

Aplicaęócs Windows usam as funęóes Win32 e se comunicam com o subsistema Win32 para fazer cbumudas 
de sistema. O subsistema \Vin32 aceita as chamadas de funędo Win32 (ver mais adiante) c usa o módulo de biblio- 
teca de interface de sistema na verdade um urquivo DLL (veja Cupftulo 7) — para fazer as verdadeiras chumu- 
das de sistema XP neccssdrias paru execuui las. E assitn quc as chamadas de sistema sao fcitas no XP. 

Agora quc ja lizemos um examc resumido da eslrulura do XP, vutnos voltar a nosso assunlo principał, os ser- 
vięos oferecidos jielo XP. Essa interface ć a principał conexdo do programador com o sislema. lnfelizmente, a 
Microsoft nunca rcvelou ao pdblico u listu cumpleta das chamadas de sislema do XP e alleru essas chamadas a cudu 
versdo. Ncssas condięóes, escrever programas que fazem chamadas de sislema diretamcnte i qna.se imposstvel. 

O que a Microsoft fez^ foi definir um conjunlo de chainadas denominudo \Vin32 A 1*1 (Application 
Programniing Interface — interfaee de programaęao de aplieaęao) que den ao conbecimento publico. Sao pro- 
ceditnentos dc biblioteca que ou fazem chamadas de sistema paru conseguir que o truhalho seja reulizado ou, cm 
alguns cu&os, realizam o trabulbo diretumente no procediincnto da biblioteca do espuęo de usuńrio ou uo subsiste¬ 
mu Win32. As chamadas da API Win32 nao sao ulterudas em novas edięócs para pronii>ver cstabilidade. Contudo, 
Utmbćm ba chamadas da API que podem mudar enlre versftes de XP. Embora nem lodas as chamadas da API Win32 
sejam chamadas de sistemu XP, aqui e melhor focalizur essas chamadas do que as verdudeiras chamadas de siste¬ 
ma XP porquc as chamadas da API Win32 sao bem documentadus c mais estaveis uo longo do tempo. Quundo o 
Windows foi portudo para tmiquinus de 64 bits, u Microsoft mudou o nome Win32 para ubranger ambas as versńes, 
de 32 bits c 64 bits, mas, para nossa finalidudc. e suftciente esaminur a vcrsao de 32 bits. 

A filosoiia da API Win32 i completamente diferente da lilosofta UNIX. Nessa ultima, as chamadas de siste¬ 
mu siio lodas conhcculus do ptiblico e formam urna interface minima: rcmovcr ainda quc urna só delas reduziria u 
funcionalidade do sislema operacional. A ftlosofia da Win32 6 proporcionur urna interface muito abrangente, que 
muitus ve<cs ofcrcce tres ou quatro modus de fazer a mcsina coisa, e inclui nuiitas funęóes que cluramente nao deve 
riam ser (c nao sao) chamadas dc sistema, tal como urna chatnudu para copiar um arquivo intciro. 

Muilas cbainuilas Win32 criam objetos ile nucleo de um ou outro lipo, incluiiuio arquivos, processos, ilircatls, cone- 
xóes etc. Toilu chamada que cria um objęto de nucleo retoma ao chamudor um resultado denominado manipulador. Na 
seqiiencia, csse manipulador pode ser usado para executar operaęóes no objęto. Manipuladores sao cspecilicos para o 
processo que criou o objęto ao qual o manipulador se refere. Eles nao podem ser passados diretamcnte para um 
outro processo e ali serem usados (exatamente como descritores de arquivo UNIX nao podem ser passados para 
um outro processo e uli serem usados). Contudo, sob certas circunstaneias 6 possivel duplicar um manipulador c 
passń-lo a outros processos dc modo protegido, permitindo a eles acesso controlado a objetos que pertenęam a 
outros processos. Todo objęto pode ter um descrilor de seguranęa associado a ele, que informa, com detalhes, 
quem pode c qucm nao pode executar quais tipos dc operaęóes no objęto. 
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As ve/es diz-sc quc o XP e baseado cm objetos porque o unico modo de manipular objetos de nucleo e invo- 
cnndn mćtodos (funęócs API) com scus manipuladorcs. Por outro lado, faltam-lhc algumas das propriedades mais 
basicas dc sistemas baseados em objetos. como heranęa c polimorfismo. 

A Win32 API tambćm esttS disponfvel em Windows 95/98/ME — bem como no sistemn operacional de equi 
pamentos elelrónicos de cnnsumo, o Windows CE - com urn pcqueno mimem dc exceęócs. Por exemplo. o 
Windows 95/98 n9o linha ncnhuma seguranęa. portanto as chamadas da API relacionndns com seguranęa limitn- 
vam-se a relomar eódigos de erro em Windows 95/98. Alćm disso, os nomes de arquivos XP usam o conjunto de 
caracteres Unicode, que n&o cstava disponfvel em Windows 95/98. Tambćm hń diferenęns em paramctros para 
algumas chamadas de funę3o API. No XP. por exemplo. todas as coordenadas de tela dndas nas funęóes griifieas 
s3o nurncms verdndciros de .12 bits: em Windows 95/98. soinente os 16 bits dc ordem baisa eram usados (para 
compatibilidade com o Windows 3.1). A existćncia da Win.12 API em vdrios sistemas operacionais fncilila por- 
tar programas cntre eles, mas tambćin salienta com mais clareza que. de certa forma, ela estd desvinculada das 
chamadas dc sistcma. 

6.4.2 Exemplos de memória virtual 

Nesta seęfio estudaremos a memória virtual no UNIX e no XP. Em grandę patie, clas siło bastante semelhan 
tes do ponto dc vista do programador. 

Memória virlual do U NIX 

O modclo de memória do UNIX ć simples. Cada processo tem Irfis segmentos: código. dados c pilha. como 
ilustrado na Eigura 6.29. Km urna maquina com unt unico espaęo de endereęo linem, o código geralmente ć colo 
cado próxinto 9 parte de baixo da memória. seguido pełna dados. A pilha <5 coiocnda na parte de cima da memória 
O tamanho do código ć lixo. mas os dados c a pilha pudem crescer, ale mesmo em direęóes opostas. Esse modclo 
C lacil de implcnientar em praticamenle qualquer uuiquina e e o modelu usado pelo Solaris. 

Ademais, se a mdquina liver paginaęao. todo o espaęo de endereęo pode ser paginado sem que os programas 
se dćem conta disso. A unica coisa que eles notam ć que ć permitido ter programas maiores do que a memória lisi¬ 
ca da mdquina. Sistemas UN1X que nilo tSm paginaęao em geral trocam processos inteiras entre memória e disco 
para permitir que um numero arbitrariamentc grandę de processos compartilhem o tempo tla CPU. 

No caso do UN1X de Berkeley, a descriędo anterior — memória virtual paginada por demanda — ć hasicn- 
mente toda a historia. Todavia, o System V, e tambćm o Solaris, incluem diversas caractcristicas que permitem aos 
usuarios gerenciar sua memória virtual dc modus mais sonslicados. A mais importante dcltis e u capacidadc dc um 
processo mapear um arquivo (parte de um ari|uivo) para parte de seu espaęo de endercęo. Por esemplo, se um arqui 
vo de 12 KB for mapcado no endereęo virtual 144 K. urna leitura para a palavra no endercęo 144 KB Id a primcira 
palavra do arquivo. Dcsse modo, K/S de arquivo pode ser realizada sem fazer chamadas dc sistema. Urna vez que 
nlguns arquivos podem ultrapassar o tamanho do espaęo de endereęo virtual. tatnbćm ć poss(vel mapear apenas utną 
poręSo de um arquivo cm vcz de ele todo. O mapeamento ć feito em pritneiro lugar abrindo o arquivo e receltendo 
dc volta um descrilor de nrqiiivo,/</, quc ć usado para idcnlificar o arquivo a ser mapcado. EntSo o processo fa/ urna 
chamada 

paddr = mmap(virtual aridress, length, protection. tlags. fd, tile offset) 

que niapeia um numero de bytes igual a length, que comeęam cm filejnffset no arquivo. para o espaęo de endereęo 
virtual. que comeęa cm riruutljaddress. Como alternativa. o parSmetro flags pttde ser ajuslado |tara solicitar ao siste¬ 
ma que escolha um endereęo virtual. que ele entao retoma como paddr. A regiao tnapeada devc ser um ntimero intci- 
ro dc pńginas e alinhada em urna fronteira de pógina. O ptirametro protection pode especificar qualquer combinaęao 
de permissao de leitura. escrita ou execute. O mapeamento pode ser removido mais tarde com unmap. 

Varios prtreessos pudem mapear para o mesmo arquivo ao mesmo tempo. Siło oferccidas duas opęfles de cont- 
partilhamento. Na primeira. todas as póginas siło compartilhadas, portanto as cscritas feitas por um processo stło 
visfveis para todos os oulros. Essa opęao fomecc um caminho de comunicaę2o de alla largura de banda enlre pri>- 
cessos. A outra opęao compartilha as pdginas contanto quc nenhum processo as modifique. Conludo. tao logo qual- 
qucr processo tente cscrever em unia pdgina. obtćm um falha de proteę8o. o que faz com que o sistema operacional 
dć a cle urna cópia particulnr da piigina. na qual ele pode escrcver. Esse esqucma. conhecido como cópiu na eseri- 
(a. e usado quando viirios processos precisam da ilusSo de ser o unico mapeado para um arquivo. 


Endeteęo 

OsFFFFFFFF 

rtnura 8.29 

Espaęo de endereęo 
de um tlnlco 
ptocesęp UN1X. 

0 



Pilha 

~r 

_l_ 

Dados 

Código 




o 


Memória virtual do Windows XP 

No Xf, todo proeesso usudrio tein seu próprio espaęo de eiidereęo virtual. fcśndereęos virtuais tem 32 bits de com- 
primento, de modo i|ue cuda proeesso tein 4 GB de espaęo de endereęo virtual. Os 2 GB ntuis baixos estao dispom'veis 
para o código e os dados do proeesso; os 2 GB inais altos permitem ucesso (limilado) a memória de nucleo, exceto em 
versóes Servidor (Scrver) do Windows, nas quais a divisao pode ser de 3 GB para o usudrio c I GB para o niicleo. O 
espaęo de endereęo viitual e paginado por demanda, com um tanianho de pdgina fixo (4 KB no Pentium 4). 

Cada pagina virtual pode estar em um de tr&s estados: livre, reservada ou comprometida. Urna pagina livre nao 
estd em uso ern um dado momento e unia referencia a ela causa urna falta de pagina. Quando um proeesso ć iniciado, 
lodas as suas paginas estao em estado livre alć que o programa e os dados iniciais sejam inupeados para seu espaęo de 
endereęo. Tao logo código ou dados sejam mapeados para urna pagina, diz-se que a pagina estii comprometida. Urna 
referencia a urna pagina comprometida e mapeada usando o hardware de memória virtual e ć bem-sucedida se a pagi- 
na estiverna memória principal. Se a pagina nao estiver na memória principal, ocorre unia falta de pagina e o sistema 
operacional acha a pagina e a traz do disco. Urna pagina. virtual tambćni pode estar em estado reservado, o que sig- 
nificu que ela nao esta dispom'vel para ser mapeada ate que a reserva seja renuwida explicitamenle. Alćm dos alribu- 
tos livre. reservada e comprometida, as paginas tambem tern outros atributos, tais como pode ser lida ( readuble ), pode 
ser escrita (writablc) e pode ser executada ( execuluble ). Os 64 KB da parte de cima e os 64 KB da parte de haixo da 
memória estao sempre livres, para pegar erros de ponieirt) (ponteiros nao inicializados costumam ser 0 ou -1). 

Cuda pagina comprometida tein urna pagina sombra no disco, onde ela e mantida quundo nao estiver na memó¬ 
ria principal. Pdginas livres e reservadas nao tem pdginas sombras, portanto referencias a elas causam faltas de pdgi- 
na (o sistema ndo pode trazer unia pagina do disco se nao houvcr ncnhuma piigina no disco). As pdginas sombras 
no disco sdo organi/.adas em um ou mais arquivos de paginaęao. O sistema operacional monitora qual piigina vir 
tual mapeia para qual parte de qua) arquivo de paginaęao. Para texto de programa (só de execuęao), o arquivo bind 
rio executdvel conteni as pdginas sombras; para pdginas de dados sdo usados arquivos especiais de paginaęao. 

O XI*, assim como o System V, pennite que arquivos sejam mapeados diretamente para regióes dos espaęos de 
endereęo virtual - isto e, carreiras de pdginas. Tao logo um arquivo tenha sido mapeado para o espaęo de endere¬ 
ęo, ele pode ser lido ou escrito usando rcferdncias comuns de memória. 

Arquivos de memória mapeada sao implementados do mesmo modo que outras pdginas comprometidas, só 
que pdginas sombras podeiu estar no disco em vez de no arquivo de paginaęao. O resultado 6 que, quando um arqui- 
vo e mapeado, a wrsao que esta na memória pode nao ser identica a versao que estd no disco (devido a escritas 
recentes para o espaęo de endereęo virtual). Contudo, quando o arquivo e desmapeado, ou descarregado explicita- 
menle, u versdo do disco e alualizada. 

O XP pennite explicitamente que dois ou mais processos mapeiem para o mesmo arquivo ao mesmo tempo, 
possivelmente ern endereęos virtuais diferentes. Lendo e escrevendo palavras de memória, os processos agora 
podem se coniunicur um com o outro e passar dados de um para outro em largura de banda muito alta, urna vez que 
nenhuma cópia e requerida. Processos diferentes podem ter permissóes ile aeesso diferentes. Unia vez que todos os 
processos que usain um arquivo mapeado compartilhani as mesmas paginas, alteraęnes feitas por um deles serao 
imedialamentc visfveis para todos os outros, mesmo que o arquivo de disco ainda ndo tenha sido atualizadn. 

A Win32 AP1 conteni viirias funęńes que permiiein que urn proeesso gerencie sua memória virtual expli- 
citaincnte. As mais importantes dessas funęóes estao relacionadas na Tabela 6.4. Todas elas operani em urna 
regiao que consistc em uina linica pagina ou eni urna seqiiencia de duas ou niais paginas que sSo consecutivas no 
espaęo de endereęo cirtual. 

As quatro priineiras funęóes da AP1 sao aulo-explicativas. As duas seguintes dao u um proeesso a habilidade 
de conectar um certo numero ile paginas na memória de modo que elas nao sejam retiradas por paginaęao. Tambem 
łhe dao capacidade de desfazer o que Użerani. Um programa de tempo real poderia precisar dessa habilidade, por 


Tabela 6.4 Principais chamadas Windows XP AP1 para gerenciar memória virtual. 


Funęao API 


VlrtualAUoc 

VirtualFree 

VirtualProtect 

VirtualQuery 

VirtualLock 

VirtualUnlocli 

CreateFileMapping 

MapViewOfFile 

UnmapViewOfFile 

OpenFileMapping 


Significado 


Reserva ou compromete uma regiao 

Libera ou descompromete uma regiSo 

Altera a protezo ler/escrever/executar em uma regiao 

Consulta o estado de uma regiao 

Transforma uma regi&o da memória em residente, isto e, desabilita paginaęao para ela 
Tbraa uma regiao paginavel do modo usual 

Cria um objęto de mapeamento de arquivo e Ihe deslgna (opcionalmente) um nome 

Mapeia (parte de) um arquivo para o espaęo de endereęo 

Kemove um arquivo mapeado do espaęo de endereęo 

Abre um objęto de mapeamento de arquivo previamente criado 
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Significado 


CToat(name, modę) 
unlink(name) 


Cria urn arquivo; modę especifica o modo de proteęiło 
Apaga um arqulvo |admltindo que hś só um link para ele) 

Abre ou cria um arquivo e retorna um descritor de arquivo 
Fecha um arquivo 
Le count bytes para o bulfer 
Eacreve counf bytes do buffer 

Move o ponteiro de arquivo como reąuerido por offset e w 
Retorna inlormaęao sobre um arqUivo 
Altera o modo de proteęSo de um arquivo 

Reallza varias operaęoes de controle tais como bloquear Iparte de) um arquivo 


close(fd) 

read|fd, bufler, count) 
write|fd, buffer, count) 
lseek|ld, offset, w) 
stat(name, buffer) 
chmod|name, modę) 
fcntl|fd, cmd,...) 


cxemplo. Somente programas que exccutam em nomc do administrador do sistcma podem prender p«1ginas na 
memória. Alćm disso, hd um limitu imposto pulo sistema opcracional para evitar que alć mcsmo esses processos 
fiquem muito gananciosos. Embora ndo scjam tnoslradas na Tabela 6.4, o XP tambćm tem funęóes API para per 
tnilir que um processo acesse a memória vinual de um processo diferente sobre o qual obteve o controle, isto <5. 
para o qual tem um manipulador. 

As quatro riltimas funęóes API relacionadus servem para gerenciar arquivos de memória rnapeada. Para mapear 
um arquivo, em primeiro lugar 6 preciso eriar um objęto de mapeamento do arquivo eom CreateFileMapping. 

lissa funędo retorna uni manipulador para o objęto de mapeamento de arquivo e opcionalmenle registru um 
nonie para ele no sistema de arquivos para que um outro processo possa usd-lo. As duas funęóes seguintes mapeiam 
e desmapeiam arquivos, respectivamente. A dltima pode ser usada por um processo para mapear um arquivo que. 
no momento em questao, tambćm esta mapeado para um processo diferente. Desse modo. dois ou mais processos 
podem eompartilhar regióes de seus espaęos de endereęo. 

Essas funęóes API sao as funęóes bdsicas sobre as quais e construfdo o resto do sistema de gerenciamento de 
memória. Por exemplo, ha funęóes API para alocar e liberar estruturas de dados cm um ou mais montes. Montes 
sao usados para armazenar estruturas de dados que sao criadas e destrufdas dinamicamente. Os montes niio sao 
removidos pelo sistema operacional nas suas coletas de lixo, portanto cabe ao usuario do software liberar blocos de 
memória virtual que nao estao mais em uso. (Coleta de Iixo 6 a remoęao automatica dc estruturas de dados niio uti- 
lizadas pelo sistema.) A ulilizaęilo dc montes no XP ć similar ii utilizoęao da funęiio malhn cm sistemas UNIX. 
cxccto qtie pode haver vdrios montes gercnciados independentementc. 

0.4.3 Exemplos de E/S virtual 

O coraęiio de qualquer sistema operacional e proporcionar scrvięos a programas usuarios. em grandę parte ser- 
vięos de E/S como ler e escrever arquivos. Ambos, o UNIX e o XP, oferecem unia ampla variedade de servięos de 
E/S para programas usuarios. O XP tem uma chamada equivalente para a maioria das chamadas de sistema UNIX, 
mas o contrdrio nao e verdadeiro, porque o XP tem muito mais chamadas e cada uma delas e muito mais compli- 
cada do que sua contraparte UNIX. 

E/S virtual em UNIX 

Grandę parte da popularidade do sistema UNIX pode ser atribufda diretatnente ii sua simplicidade quc, por sua 
ve7„ ć um resultado direto da organizaędo do sistema dc arquivos. Um arquivo ordindrio e uma seqtiencia linear de 
bytes de 8 bils que comeęa em 0 e vai atć um mdximo de 2’ 2 - I bytes. O sistema operacional cm si nao impóe aos 
arquivos nenhuma estrutura de registro. embora muitos programas usudrios considcrcm arquivos dc texto ASCII 
como seqtlencias de linhas, cada um tenninando com a volta ao infcio de uma nova linha. 

Associado com todo arquivo aberto estd um ponteiro para o próximo byte a ser lido ou escrito. As chamadas dc 
sistema read e write 16em e escrevcm dados comeęando na posięao do arquivo indicada pelo ponteiro. Ambas as clui- 
madas aumentam o ponteiro após a opcraęilo de uma quantidade igual ao mimero de bytes transleridos. Conludo, 6 
poss(vel acesso aleatório a arquivos ajustando explicitamente o ponteiro de arquivo para um valor especffico. 

Alem de arquivos ordinarios, o sistema UNIX tambem suporta arquivos especiais, quc sao usados para accs- 
sar dispositivos de E/S. Cada dispositivo de E/S normalmcnte tem um ou mais arquivos especiais designados a ele. 
Lendo e eserevendo do arquivo associado especial, um programu pode ler e escrever do dispositivo de E/S. Discos, 
impressoras, terminais e muitos outros dispositivos s3o manipulados dessa tnaneira. 

As principais chamadas de sistema de arquivos do UNIX estao relacionadas na Tabela 6.5. A chamada creat 
(sem o e) pode ser usada para criar um novo arquivo. Ela nao ć mais estritamente necessaria porque agora open lam- 
bfm cria um novo arquivo. Unlink remove um arquivo. admitindo que o arquivo esteja somente cm um diretório. 


Tabela o.s Principais chamadas de sistema de arquivos UNIX. 




/' Abrn os descrilores de arqulvo. V 
infd = open("dale ", 0); 
oulld = creat("newf", ProteclionBIts), 

/* Laęo de cópla. V 
do( 

counl = read(inld, butler, bytes), 

II (count > 0) write(oulfd, butler, counl); 

) whlle (counl > 0); 

f Feche os arquivos. V 
close(mld), 
close(oulld); 

Opon ć usada para abrir arquivos existentes - e criar novos. O modo Hag informa como abri-lo (para leilu 
ra, para escrilu elc.) A chamada rctorna uni iniciro de baixo va!or dcnoininado descritor de arquivo, quc idcn- 
tifica o arquivo em chamadas subscqiienles. Quando o urquivo nao for niais necessiirio, close e chamada para 
liberar o descritor dc arquivo. 

A Fi/S de arquivo propriamente dila ć feila com read c wrile, cada uma das quais tern urn descrilor de arquivo 
que indica qual arquivo usur, um buffer dc onde os dados vćm e para onde vao e um byte de contugcm (rowu) que 
informa a quantidadc de dados transmilidos. Lseek e usada para posicionar o ponteiro de arquivo, o que possibilila 
o acesso alcałório a arquivos. 

Stal reloma niformaęóes sobre um arquivo, entre elas seu łamanho, quando foi acessado pela ultima vez, pro- 
prictario e ouiros. Chmod aliera o modo de protezo de um arquivo, por exemplo, para peruiilir i*u proibir sua lei- 
lura por usuarios que n&o sejam o proprietório. Por lim, fcntl execula varias operaęóes diversas em um arquivo, lais 
como hloquea-lo c dcshloquea-lo. 

A Figura 6.3(1 ilusira como funcionam as principais chamadas de E/S de arquivo. Esse código e mfnimo e nao 
inclui a necessóriu vcrificaęao de erro. Antes de entrar no laęo, o programu abre um arquivo exislenie, data, c cria 
um novo arquivo, /ich/. Cada chamada reloma um descrilor de arquivo, infd e outfd. respectivamente. Os segundos 
parameiros para as duas chamadas sao bils de proleęiio quc especificam (|uc os urquivos dcvem ser lidos e escrilos, 
respeclivamenie. Ambas as chamadas retomam um descrilor de arquivo. Se open ou creat falharem, e retomado um 
descrilor de arqui\o negativo, informundo que a chamada lalhou. 

A chamada para read tern tres parameiros: um descrilor de arquivo, um buffer e um contador de byłeś. A cha- 
mada lenta ler para dentro do buffer o tnimero desejado de bytes do arquivo indicado. O numero de bytes realnien¬ 
ie lido ć relornado em counl, que serii tnenor do que bytes se o arquivo era minio curto. A chamada write depositn 
os bytes reećm-lidos no urquivo de salda. O laęo continua atć que o arquivo de entrada lenha sido completamente 
lido, quando cnlao o laęo encerra e ambos os arquivos sao fechados. 

Descrilores ile arquivo em IJN1X sao intciros de pcqucno valor (usualmentc abaixo dc 20). Descrilores de 
arquivo 0, I c 2 sao especiais e correspondem a uma entrada padrdo, saida padrao e erro padrao, respecliva- 
mente. Normalnienie o primeiro se refere ao leclado, o segundo ao monitor e o terceiro tambem ao monitor, mas 
podein ser redirecionados a arquivos pelo usuario. Muitos programas IJNIX ohtem sua entrada da entrada padrao e 
escrevem a saida processada na saida padrao. Esses programas costumam ser denominados liltros. 

O sistemu de urquivos guarda estreita relaęao com o sistema de diretórios. Cada usuario pode ter viirios dire- 
tórios, sendo quc cudu diretório contćm arquivos, hem como subdiretórins. Sistemas UNIX normalmcnte sao con- 
ligurados com um diretório principal denominado diretório-rai/., que contćm subdiretórios bin (para programas 
executados com frcqi)eucia), dev (para os arquivos especiais de dispositivo de E/S), lib (para bibliolecas) e usr (para 
diretórios de usuarios), como mostra u Figura 6.31. Nesse exemplo, o diretório usr contćm subdiretórios para ust e 
jim. O diretório asl contćm dois arquivos, data e foo.c, e um subilirelório, bin, que contćm quatro jogos. 

Os urquivos podcm ser nomcados dando seu eaminho u partir do diretório-raiz. Um camiuho contćm uuui lista 
de todos os diretórios percorridos desde o raiz atć o arquivo, sendo quc os nomes de diretórios sao separados por 
barrinbus inclinadas. Por exemplo, o nonie de eaminho absoluto de game2 6 /usr/asi/bin/game2. Um eaminho que 
comeęu na raiz ć denominado cundnho absoluto 

A lodu instantc. cada progrania em execuęao tern um diretório de traballio. Nomes de caininhos tambem 
podem ser relalivos ao diretório de trabaiho, caso em que n3o comeęam com uma barrinha inclinada, para dislin- 
gui-los dos nomes ile caminhos absolutos. lais caininhos s3o denominados caminhos reiativos. Quando Aisr/nsi ć 
o diretório de trabaiho, gumę.i pode ser acessado usando o eaminho bud gamę d. Um usuario pode criar uma liga 
ężo (link I para o arquivo de algućm usando a chamada de sistema link. No exemplo que acahamos de dar, ambos, 
/usr/ast/bin/gumed e /usr/jim/jotto, acessam o mesmo arquivo. Para evilar ciclos no sistema de diretórios, nSo sao 
permilidos links para diretórios. As chamadas open e creat adotam como argumentos nomes de caminhos absolutos 
ou relalivos. 

As principais chamadas do sistema de gercnciamento dc diretório em IJNIX estao relacionadas na Tabela 6.6. 
Mkdir cria um novo diretório c rmdir apaga um diretório exislente (vazio). As trćs chamadas seguintes sSo usadas 
para ler entradas dc diretório. A primeira abre o diretório, a seguinle le entradas dele e a óllima fecłia o diretório. 
Chdir muda o diretório de trabaiho. 


Fiuura 6.30 

Fragmentu de programa para 
copiar um arquivo usando 
chamadas de sistema UNIX 
Esse Iragmento esia em C 
porque Iava oculta as 
chamadas de sistema de 
nivel balxo e nós estamos 
leiiiando expó-las._ 
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mkdir(name. modej 

Cria um novo diretório 

rmdir(name) 

Apaga um direlório vazio 

opendir|name| 

Abre um diretórlo para lellura 

readdir(dlrpotnter) 

Le a próxima entrada em um diretórlo 

closedii(dlrpointei) 

Fecha um direlório 

chdir|dirname| 

Muda dtretório de trabalho para dimame 

iinklname 1. name 2) 

Cria urna entrada de diretório name 2 que aponta para name 1 

unlink(name) 

Reraove name de seu diretório 


l/usr/ast 

/usr/jlm 1 










Link faz urna nova cntrada de diretório sendo que a nova cnlrada aponta pani um arquivo exislenie. Por excm- 
plo, a entrada /usr/jun/jotto pode ter sido mada pcla chamada 


Ilnk(7usr/ast/bln/game3”, 7usr/jim/jotto") 


ou por unia chamada cqtiivalcnlc que usa nomcs dc camińhos relativos, depemlendo do direlói io de trabalho do pro- 
grama que estd fazendo a chamada. Unlink remove a entrada de direlório. Se o arquivo tiver somente um link. ć apa 
gado. Sc tiver dois ou mais links, e mantido. N3o importa sc um link removido ć o original ou urna cópia feita mais 
tarde. Urna vez fcito um link. ele ć um cidadao de primcira classe. indistingu(vel do original. A chamada 


unllnk(7u8r/ast/bin/game3") 


torna game3 acessfvel somente por meio do caminho /usr/jim/jotlo dali em dianie. Link e unlink podem ser usadas 
dessa maueira para ‘mover’ nrquivos de um direlório para outro. 








Associudo com lodo ari|uivo (incluindo diretórios, pori|uc des tambem sao arquivos) ha um mapa de bils i|ite 
iiilorma quem pode ucessur o urqtiivo. O mapa conićm tres campus RWX: o primeiro conirola as permissóes I er, 
Hscrever, Execular para o proprietdrio; o segundu para outros que pertencem ao grupo do proprietario e o tereeiro 
para lodo os oulros. Assim, RWX R-X —X signilica que o proprieldrio pode ler o arquivo. escrever o urquivo e exe- 
cutar o arquivo (ć óbvio que ć um prograina execul<ivel, ou ‘executar’ eslaria desligada), ao passo que outros em seu 
grupo pudem ler ou uxeeuiar o arquivo e estranhos só podcm exccuta-lo. Com essas pertnissfies, esiranhos poiłem 
usar o programu, mas nSo podem rouba-lo (copid-lo) porque nilu tfim permissflo de leiluru. A designuęao de usud 
rios u grupos ć leitu pelo admiuistrador do sislema, usuulmente dcnominado superusuario O superusuario tumbom 
lem o podcr de anular o mecanismo de protcęao e ler, escrever e executar qualqucr arquivo. 

Agora. vanu>s esludar resumidamente como arquivo$ e diretórios sao implementados em UNIX. Se o leitor 
ijuiser informaęóes mais compleias, veja Vabalia (1996). Assoeiado com cada arquivo (e cada direlório, porque um 
direiório tambem e um arquivo) estd um bloco de infominęAcs de 64 bytes deuominado inodc (index node — nó 
de indice). O iuode informa qucm i o proprietario do arquivo, quais sao as permissóes. otulę achar os dados e coi- 
sas similares. Os inodes paru os arquivos em cada disco estSo localizados ou em seq(ićncia numćrica no infcio do 
disco ou, se o disco lor dividido em grupos de eilindros, no infcio de um grupo de eilindros. Assim, dudo um nume¬ 
ru de inode, o sistemu UNIX pode locaiizar o modę simplesinerite calculando seu endercęo de disco. 

Urna entradu de direlório consistc em duas partes: um nonie de arquivo e um mimem de inode. Quando um 
programu executu 

open(“foo.c”, 0) 

o sislema examina o direlório de trabulhn em busca do nonie de arquivo, “foo.c,” de modo a locaiizar o mi mero de inode 
para aquele arquivo. (juandu achar o mimem de inode, entao ele pode ler o i tu ule, que informa tudo sobre o arquivo. 

Quando e especilicado um nome de caminho mais longo, as etapas basicas delincudas anlcriormente sao repc 
lidas diversas vezes ate quc lodo o caminho lenha sido analisado. Por exemp!o, paru locaiizar o numeru de inode 
para /usr/ast/dala, cm primeiro lugur o sislema im esliga o dirctório-raiz em busca dc urna entradu usr. Ao achar o 
inodc pata usr, ele poilc ler aquele urquivo (um direlório ć um arquivo em UNIX). Nessc arquivo ele procuru uma 
enlrada asi, loculizuiido assim o mimero dc inodc para o arquivo /usr/usl. Ao ler/i isr/usl, o sislema pode entao achar 
u entradu paru dam e, assim, o mimero de inode paru /usr/ast/data. Dudo o mimero de inode puru o arquivo, eniao 
ele pode dcscohrir ludo sobre o arquivo pelo inode. 

O formatu, conleiido e leiaule de um inode variam um pouco de sistema paru sistenui (em cspcciul ijuando se 
eslii usando rede), mas os seguinles itens sao ttpicos e podcm ser enconirailos em cada inode. 

1. O ti|M> do urquivo, os 9 bils de prolcęao RWX e alguns outros bils. 

2 . O mimero de links para o arquivo (o mimero de euiradas de direlório para cle). 

3. A identidurie do propricldrio. 

4. O grupo do pmpiietiirio. 

s. () comprimento do arquivo em bytes. 

e. Treze endereęos de disco. 

7. A ultima vez em quc o arquivo foi lido. 

8. A ultima \ez em que o arquivo foi escrilo. 

a. A ultima vez em que o inode foi alterado. 

O lipo de arquivo dislingue ari|uivos ordinarios, diretórios e dois tipos de arquivos especiais, para dispositivos 
de li/S estruturados em blocos ou nSo estruturados, respectivumenie. O mimero dc links e a identificaęao do pro¬ 
prietario ja forum disculidos. O comprimento do arquivo ć um mimero iuleiro dc 32 hits que da o byle mais alto que 
lem um valor. fara i riar um arquivo. e perfeitamente legał fazer uma Iseek para posicionar I .000.000, e escrever I 
byle, o que resulla em urn arquivo de comprimento 1.000.001. Todavia, o arquivo ndo requereriu annazenamenlo 
paru todos os bytes ‘faltantes’. 

Os dez primeiros endereęos de disco apontam para blocos de dados. Com um tamanho de bloco de 1.024 bytes. 
arquivos de ate 10.240 bytes podem ser manipulados dessa maneira. O endercęo 11 upontu para um bloco de disco, 
dcnominado bloco iudireto, que contem 256 endercęos de disco. Arquivos atć 10.240 + 256 X 1.024 = 272.3K4 
bytes sao manipulados dessa maneira. Para arquivos uindu maiores. o endereęo 12 upontu puru um bloco que eon 
tein os cndereęos de 256 blocos indiretos, que toina contu de arquivos atć 272.384 + 256 X 256 X 1.024 = 
67.381.248 bytes. Se esse csquema de bloco indireto duplo uindu for muilo pcqucno, o endereęo de disco 13 ć 
usado para upontar para um bloco indireto triplo que contem os endereęos de 256 blocos indiretos duplos. Usando 
os endereęos diretos, tinieos, indiretos duplos e indiretos triplos, atć 16.843.018 blocos podem ser endcreęados, o 
que da um tamanho de urquivo mdximo teórico de 17.247.250,.32 bytes. Uma vez que ponteiros de arquivos siło 
limitados a 32 bits, nu priUicu o limite superior ć, na verdade, 4.294.967.295 bytes. Blocos de disco livres sao inan- 
tiilos cm uma listu eucadeudu. Quundo ć preciso um novo bloco, o próximo bloco ć retintdo da lisia. O resultado ć 
que blocos de cuda arquivo Hcum espalhados aleatoriamente pelo disco. 

Para tornar a Ii/S de disco mais eliciente, quando um arquivo ć aberto, seu inodc ć copiado para uma tabela 
nu memória princip.il e uli ć mantido para facil referencia cnquanto o arquivo estiver aberlo. Ademais, um reser- 
vartório de blocos dc disco rcccntemenie referenciados ć mantido na memória. Como grandę parte dos arquivos ć 
lida em seqiiencia, muilas vezes acontece de uma referencia a um arquivo precisar do niesmo bloco de disco quc 


Capitulo 6 Nivel de Maąuina de Sistema Operacional 




Organizaęao Estruturada de Computadores 



Signlflcado 


Cria um arquivo ou abte um arquivo existente; reiorna um manipulador 

Destrói um arquivo existente 

Fecha um arqulvo 

Li dados de um aiquivo 

Escreve dados para um arquivo 

Ąjusta o ponteiro de arquivo para um local espedflco no arqutvo 
Retorna as propriedades do arquivo 

Bloąueia urna reyino do aiquivo para proporcionar oxclusan mutua 
Oesblogueia urna regiao prevtamente blogueada do arguhm 


CreateFlle 


DeleteFile 


CloseHandie 


ReadFlle 


SetFllePointer Iseek 

GetFileAttributes stat 


LockFUe 


a referenda anterior. Para fortalccer esse efeito, o sistema tambćm lenia ler o pró.rimo bloco cm um arquivo. antes 
ile ele ser referendado. dc modo a acclerar o processamento. l wia cssa otimizaęiło permanece oculta para o usuś- 
rio: quando um usuario cmile urna chamada read, o programa 6 suspenso ató que os dados requisitados eslejam 
disponfveis no buffer. 

Com essa informaęSo blisica, agora podemos ver como funciona a H/S de arquivo. Open faz com que o siste¬ 
ma pesqui.se os direlórios cm busca do caminho especificado. Se a pcsquisa for bem-sucedida, o inode 6 lido para 
urna tabela interna. Reads e writes requerem que o sistema calcule o numero de bloco a partir da posięao corrente 
do arquivo. Os endereęos de disco dos dez primciros błocos sentpre estSo na memória principal — no inode; blo- 
cos de nunreros mais altos rcquerem que um ou mais blocos indiretos sejam lidos antes. Lseek só muda o ponteiro 
de posięao corrente sem lu/.er nenhuma E/S. 

Agora tambem ficou simples entender link e unlink. Link consulta scu primciro argumento para acliar o numero 
de ininle. Eiiliio. cria urna entrada de diretório para o segundo argumento colocando o numero dc inode do primci¬ 
ro arquivo naqucla entrada. Por firn, ela aumenta de um a contagem de links no inode. Unlink rcmove urna entrada 
dc diretório e decremcnla a contagem dc links no inode. Se a contagem for zero. o arquivo i 1 removido e todos os 
blocos siło dcvolvidos ii lista de livres. 

E/S virtual no Windows XP 

XP suporta varios sistemas de arquivos e os mais importantes deles s8o o NTFS (NT File System — sistema 
de arqtiivos NT) e o FAT (File Allncation Tubie — tabela de alocaęao de arquivo) O primeiro e um novo sis¬ 
tema de nrquivos descnvolvido espccificamente para XP; o ultimo i o velho sistema dc arquivos MS-DOS. que tam- 
bćm foi usado no Windows 95/98, se bem quc com suporte para nomes de arquivo mais longos. Dado que o siste¬ 
ma de arquivos FAT 6 basicatnenle obsoleto, passaremos a estudar o NTFS. 

Os nomes de arquivos em NTFS podem ter atć 255 caracteres de comprimenlo e estiło cm Unicode, o quc per 
inite que quem vive em palses que nao usam o alfabetu latino — por cxemplo. Japilo. India e Israel — cscreva 
nomes dc arquivos cm seu idioma nativo. Na verdadc. o XP usa Unicode extcnsivamentc Vcrsóes a partir do 
Windows 2000 tern um tinico código binório quc. alćm de puder ser usado em qualqucr pafs. empregam o idioma 
local. porque todos os menus, mensagens de erro etc. sfio mantidos em configuraęóes que de pondem do pafs 

O NTFS dii total suporte a nomes que sao difcrcnlcs se escritos em niaiusculas ou mimiseulas (portanto./r«ł i 
diferente dc FOO). Infelizmente, a Win32 API nao dii total suporte a nomes de arquivos quc siio diferentes se escri- 
tos em mimiseulas ou mniusculas c, no caso de nomes de direlórios. n3o lid absolutaincnte neuhum apoio, portanto 
essa vantagem se perde em programas qne usam Win32. 

Como no UNIX, urn arquivo ć apenas urna seq(ICncia linear de bytes. embora alć um miiximo dc 2 h 1 - I TumMm 
como no UNIX, hś ponteirus de arquivos. mus sua larguru e 64 bits. c nao 32 bits. para munipulur o arquivo de com 
primento mliximo. As chamadas de funęóes da API Win32 para munipulnęiio de arqtlivos c direlórios sao semelhantes 
iis suas contrapartes UNIX, exceto que a maioria tern mais parUinetros e o modelo dc sepu ranę a ć diferente. Abrir um 
arquivo retorna um manipulador, que entiio e usado para ler c eserever o arquivo. Contudo. diferente do UNIX. os 
manipuladores nao sao inteiros de haixo valor, e entrada padrUo. safda padrilo e erro padrao tfim de ser adquiridos expli 
citamente em vez de serem predelinidos como 0, I e 2. exceto em modo console, quando siło abertos com antccedfin- 
cia. As principais funęóes Win32 API para gerenciamento de arquivo cstSo relacionadas na Fabcla 6.7. 

Agora vamos examinar brcvcmcnte essas chamadas. CreateFile piHle ser usada para criar um novo arquivo e 
rctomar um manipulador para ele. Essa funęfio da API tamWrn e usada para abrir arquivos esistentes. porque nao 
ha nenhuma funęao open na API. A lista nao apresenta os parametros para as funęóes da API do XP porquc eles 
sao muito numerosos. Por exentplo, CreateFlle tem sete parametros. a saber: 


Tntinia fi 7 Principais funęóes API Win32 para E/S de arquivo. A segunda coluna dA a equiva- 
lente mais próxima em UNIX. 



JS 

i- 


n 


1. Um ponleiro para o nonie do arquivo a criar ou abrir. 

2 . Sinali/adorcs (flags) que informam sc o arquivo pode ser lido, escrito ou unibos. 

3 . Sinali/adorcs (flugs) que informam se vdrios proeessos pudem abrir o arquivo ao mesmo tempo. 

4 . Um ponleiro para o descritor de seguranęa, que informa quem pode acessar o arquivo. 

s. Sinali/adorcs (flags) quc informam o quc fazer se o urquivo existir/nflo exislir. 

e. Sinali/adorcs (flags) que lidam com atribulps como urquivamento, compressao elc. 

7. O manipuludor de um arquivo cujos alribuios devem ser clonados para o novo arquivo. 

As próximus scis funęóes da API na Tabela 6.7 sdo ru/oavelmente similares ós chamadas de sistema corres- 
pondentes cm UNI\. As lillimas duas permitem que urna regiao de um arquivo seja bloqueada c desbloqueadu para 
permilir que um processo oblenha exclusao miitua garantida a ele. 

Usando essas funęóes da API e possivel escrever um procedimento para eopiar um arquivo, analogu 5 versdo 
UNIX da Figura 6.30. lal procedimento, sem nenhuma veriticaęao de erro, ć most rado na Figura 6.32. Foi projetado 
para imilar a estrulura da Figura 6.30. Na pralica, nflo terfamos de programar a cópia de arquivo, urna vez que CopyFIlo 
e urna funęfio da API que execulu algo parecido com esse programu, como um procedimento de biblioteca. 
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Fragmentn de piograma 
para eopiar um arqutvo 
usando as funęóes da API 
do Windows XP. 

0 fraymento usta em C 
porque Java oculta as 
chamadas de sistema de 
nlvel bauto e nós estamos 
tentando expó-Ias. 


/• Abra arquivos para enlrada e salda 7 

inhandie = Crea1eFile("dala". GENERIC_READ, 0, NULL, OPEN EXISTING, 0. NULL); 
outhandle = CrealoFlle("nevvr. GENERIC_WRITE, 0. NULL, CREATE ALWAYS. 

FILE ATTRIBUTE NORMAL, NULL); 

I’ Cople o arqutvo. 7 
do( 

s = ReadFile(lnhandle, butler, Bl)F_SIZE, & count. NULL). 

il (s > 0 && count > 0) WriteFile(outhandie bulter. count, &ocnt, NULL); 

) while (s > 0 && count > 0); 

/• Feche os arquivos. 7 
CloseHandle(lnhandle); 

CloseHandle(mithandle), 


O XP supoitu um sistema hierarquico de arquivos stmilar ao sistema de art|uivos UNIX. Todavia, o sepurador 
de nornes de eom|H>nenies e \ em vez de /, um fó&sil herdado do MS-DOS. Ha um conceilo de um diretório de tra- 
balho corrente. c os nornes de catninhos podem ser relalivos ou absolutos. Dina difcrenęa signifiealiva entre o XP 
e o UNIX, enlrctanto, e que o UNIX permite que os sislemas dc arquivos em discos e maipnnas diferentes sejani 
montados juntos em urna ńnica arvore de nomeaęao, o que oculta a estrulura de disco de lodo o software. O NT 4.0 
nao tern essa propriedade, portanio nornes absolutos dc arquivo devem comcęur com uma letra de drive que indi- 
que quul ć o disco logico preicndido, como cm C:\window3Ssystenffoo.dll. A partii do Windows 2000 foi acrescen- 
tado o estilo UNJX dc montagem de sistenias de arquivo. 

As principuis funęóes da API de gerenciamento de diretório san dadas na Tabela 6.8, mais uma vcz acompu- 
nhadas de suas equivalcntes mais próximas em UNIX. Fsperamos que as funęóes sejani auto-cxplicativas. 

O XP tein um inccaihsmo de seguranęa muilo mais eluborado do quc a maioria dos sislemas UN1X. Embora 
baja ccntcnas de funęóes da API relativas a seguranęa, a breve descrięao que faremos a seguir dii a ideia geral. 
Quando um usuario la/ login, seu processo inicial recebe uma flcliu dc accsso duda pelo sistema operucionul. A 
Ucha de acesso coiitent a SU) (Security ID) do usuiirio, uma listu de grupos de segurunęu aos quais o ustuirio |>er- 
tence, quaisquer pri\ ilćgios especiais disponfveis e alguns outros itens. A raziło da permissilo de acesso <5 concen- 
trar todas as infoi maęftes de seguranęa em um lugar fdcil de aehar. Todos os proeessos criados por esses proeessos 
herdam a mesma jrermissao de acesso. 

Um dos paraineiros que podem ser fomecidos quundo qualquer objęto e triado e seu descritor de seguranęa. 
O descritor de seguranęa contóm uma lista de entradas tlenominada uma ACL (Access Control List — listu de 
conlrole de acesso). Cuda enlrada permite ou profhc. a algumu SID ou grupo, u rcali/uęno de algurn conjunto de 
operaęóes no objęto. Por exemp!o, um arquivo poderia ter um descritor de seguranęa especificando que Lconora 


Tabela 6.8 Princtpats funęóes da API Win32 para gerenciamento de diretório. 
A segunda coluna da a mais próxima equivalente UNIX, ąuando ela extste. 


l Punęao API 

1 UN1X 

Signiticado j 

CreateDirectory 

mkriir 

Cna um novo diretório 

h«moveDirectory 

rradir 

Reroove um diretório vazio 

FindFirstFUe 

opendtr 

Inicializa e comece a ler as entradas em um diretóno 

FindNeztFUe 

readdir 

Lś a próxima enlrada de diretório 

MoveFUe 

SetCunentDirectory 

chdtr 

Move um arquivo de um diretório para outro 

Muda o diretóno de trabalho corrente 
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nao lem absolulaniente ncnluun acesso ao arquivo, Ricardo pode ler o arquivo e Linda pode ler ou cscrever o arqui- 
vo. e lodos os membros do grupo XYZ podem ler o comprimento do arquivo e nada mais. 

Quando uni processo lenta realizar alguina operaęSo sobre um objęto usando o manipulador que obteve quan- 
do abriu o objęto, o gereneiador de seguranęa pega a ficha de acesso do processo e pcrcorre a lista de entradas na 
ACL pela ordem. Logo que encontrar uma entrada que combine com a SID do chaniador ou córa um dos grupos do 
chamador. o privilćgio de acesso ali encontrado ć considerado definitivo. Por essa raz8o. e usual colocar entradas 
que negam acesso antes de entradas que permitem acesso na ACL, de modo que o usuario a quem o acesso foi espe- 
cificainente negado nao possa entrar por meios escusos por ser membro de um grupo que tern acesso legftimo. O 
descritor de seguranęa tam hem contćm informaęóes usadas para verificar os acessos ao objęto 

Agora vamos dar uma rapida olhada no modo de implementaęao de arquivos e diretórios em XP. Cada disco 
ć dividido estaticamente em volumes independentes, equivalentes its partięócs dc disco em UNIX. Cada volume 
contćm mapas de bits, arquivos, diretórios e on tras eslruturas dc dados para gerenciar suas informaęóes. Cada volu- 
me ć organizado como uma seqiiencia linear de agrupamentos. sendo que o tamanho do agiupamento ć ftxo para 
cada volume e esta na faixa dc 512 bytes a 64 KB. dependendo do tamanho do volumc. Agrupamentos siło referen- 
ciados por seu deslocamento em relaęao ao inicio do volu’mc utilizando numeros de 64 bils. 

A principal estrutura de dados em cada vołumc ć a MFT (Master File labie — tabela mestra tle arquivos). 
que tern uma entrada para cada arquivo e diretório no volume. Essas entradas sao andlogas aos inodes cm UNIX. A 
MIT ć, ent si. um arquivo e, como tal. pode ser colocada em qualquer lugar do volunie. climinando assim o pro- 
blenia que o UNIX tein com blocos ruins do disco no tneio dos inodes. 

A MFT <5 mostrada na Figura 6.33. Ela comeęa com um cabeęalho que contćm informaęóes sobre o volume 
tais coino (ponteiros para) o diretório-raiz, o arquivo de inicializaęHo, o arquivo de blocos ruins. a adminislraęio da 
lista de livres etc. Depois disso vem uma entrada por arquivo ou diretório de 1 KB, exeeto quando o tamanho do 
agrupamento for 2 KB ou mais. Cada enltada contćm todos os nietadados (informaęóes administrativas) sobre o 
arquivo ou diretório. S3o permitidos vdrios formatos. um dos quais ć mostrmlo na Figura 6.33 

O campo padrao de informaęóes contćm informaęóes como marcas de tempo necessdrias para a contagem de 
ligaęóes esiritas (hard links), os bits de somenle leitura e arquivamento etc. £ um campo de comprimcnlo Ftxo e esta 
sempre presentc. O comprimento do nonie de arquivo ć varidvel atć 255 caracteres Unicode. Fara que sejam aces 
sfveis a antigos programas de 16 bits. esses arquivos tambćm podem ter um nome MS-DOS. composto de oito 
caracteres alfanumericos seguidos opcionalmente por um ponto e uma extensao de atć Ires caracteres alfanumeri- 
cos. Se o nonie de arquivo proprianiente dito obedecer 3 regra de nomeaęao 8+3 do MS-DOS, nao ć usado um nome 
MS-DOS secunddrio. 

Em seguida vem as informaęóes de seguranęa. Em versoes atć NT 4.0, inclusive, o campo de seguranęa con- 
tinha o descritor de seguranęa proprianiente dito. A partir do Windows 2000, todas as informaęóes de seguranęa 
foram centralizadas em um linico arquivo, sendo que o campo de seguranęa simplesmcnte aponta para a parte rele- 
vante desse arquivo, 

No caso de arquivos pequenos, os dados dc arquivo estito contidos na entrada MFf, o quc poupa um acesso a 
disco para buscd-la. Essa idćia ć denominada arquivo imediato (Mullender e Tanenbaum. 1984). No caso de arqui- 
vos um pouco maiores, esse campo contćm ponteiros para os agrupamentos que contćm os dados ou. o quc ć mais 
comum. carreiras de agrupamentos consecutmis, de modo que um tinico numero de~agrupamenio e um comprimen- 
lo podem representar uma quantidade arbittiiria de dados de arquivo. Se uma tinica entrada MIT nfio for grandę o 
sufieiente para conter quai.squcr que sejam as informaęOes que ela supostamente deva conter, uma ou mais entradus 
adicionais podem ser cncadeadas com ela. 

O tamanho mćximo de aiquivo ć 2 M bytes. Para ter uma idćia do tamanho de um arquivo de 2 M bytes, iinagi- 
ne que o arquivo tenha sido escrito em sistema binario e cada 0 ou 1 ocupe 1 mm de espaęo. A lista de 2 f ’ 7 mm teria 
15 anos-luz de comprimento c se eslenderia atć muito alćm do sistema solar, ida c volta atć Alfa Centaura. 

O sistema de arquivos NTFS lem muitas outras propriedades inleressantes que incluem compressao de ilailos 
e lolerancia a falhas usando transaęóes atómicas. Infonnaęóes adicionais sobre cle podem ser encontradas em 
Russinovich e Solomon, 2005. 
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6.4.4 Exemplos de gerenciamento de processo 

Ambos, LJNIX e XP, pcrmitem que uma larefa seju subdividitla cm vdrii>s processos que pudem executar em 
(pseudo(paralelisino c se coinunicar entre si, nu estilo do exemplo produtor-consumidor q»c jó discutimos. Nesla 
heęao discutirenios como processos siu gerenciados em ambos os sisiemas. Ambos suportam paralelismo dentru de 
urn unico processo usandu threads, podaniu isso tambćm serii discutido. 

Gerenciamento de processo em UNIX 

Em quu!qucr instante, urn processo UNIX pode criar um subprocesso quc e uma replica exala de si mesmo 
cxccutando u chamadu ile sistemu fork. O processo original 6 denominado pui e o novo processo ii denominado filho. 
Logo após a fork, os dois processos sdo identicos e ale companilham os mesmos dcscrilores de urquivo. Dali em 
diunte. cada um segue seu próprio caminho e faz o que (|uiscr, independentemente do oulro. 

Em muilos casus, o processo-fiiho realiza cedas manipulaęóes cum os dcscrilores de arquivo e entao executa 
a chamada de sislema exec, que substilui seu programu e dados pelo programu e dados cnconlrados em um arquivo 
execuidvel especiticado como pur&metm para a chamada exec. Por cxcmplo, quando um usudrio digila um coman- 
do xyz em um terminal, o interprelador de comandos (shell) executa fork para criar urn processo-fillio. Esse proces- 
so-filho cnlflo execula exec para executar o programu xyz. 

Os dois processos correm em paralelo, com ou sem exec, a menos que o pai deseje esperur que o filho termi- 
nc anles de cle próprio coniinuar. Se desejar esperar, o pai execula u chamada de sislema wait ou waltpid. que faz 
com que ele fique suspenso aić que o filho lerminc execu(ando exit. Após o filho cnccrrar, o pai continua. 

Processos podeiu execular fork quanlas vezes quiserem, dando origem a uma drvore de processos. Na Figura 
6.34, por exemplo, o processo A executou fork duas vezes, criando dois filhos, B e C. Entao li tambćm executou fork 
duas vezes e (' a cxecutou uma só vez, resultando na drvore finał de seis processos. 

Processos em l IN1X pudem sc comunicar um com o oulro por meio de uma estrutura denominada pipę (cone 
\ao ou tubo). Um pipę d um lipo de buffer no qual um processo pode escrever uma correnfe de dados e um oulro 
pode rctini-la. Byles sao sempre retirados de um pipę na ordem em que foram escrilos. Acesso alealório nao e pos 
sivel. Pipes nao presersam fronteiras de mensagein; portanto, se um processo fizer quulro escritas de 128 byles e o 
outro fi/er uma leilura de 512 bytes, o leitor obiera lodos os dados ao mesmo tempo, sem nenhuma indicuęao de 
que forum escrilos em varias operaędcs. 

Em System V e Solaris, um outro modo de comunicaęao entre processos ć a ulilizaęao de filus de mensageiis. 
Um processo pode criar uma nova fila de mensagens ou ahrir uma fila existcnte usando msgget. Com uma fila de 
mensagens, o processo pode enviar mensagens usando msgsnd e rccebe-las usando msgrecv. Ha muitus diferenęas 
enlre mensagens em iadas dessa maneira e dados amontoados em um pipę. Em primeiro lugar, fronteiras de men- 
sugens san preservadus, uo passo que um pipę <5 apenas unia corrente de byles. Em segundo lugar, mensagens tern 
prioridades, portanto as mais urgentes piKictn passar a frenle das menos imponantes. Em terceiro lugar, lui lipos de 
mensagens e, se desejado, uma msgrecv pode especificar um tipo pariicular. 

lim outro mccanismo de comunicaęSo & a capacidade de dois ou mais processos comparlilharem uma regiao 
de seus respec(ivos espaęos de endereęo. UNIX manipula essa memória compartilhada mapcando as mesnurs pdgi- 
nus para o esęwęo de endereęo virtual de todos os processos compartilhantes. O resultado ć que uma escrila reali- 
zada por um processo em uma regiao compartilhada ć imediutamente visfvel para os outros processos. Esse meca- 
nismo proporciona um caminho de comunicaęio enlre processos de largura de banda muito aha. As chamadas de 
sistemu envolvidas na memória compartilhada alendem por nomes como shmat e shmop. 

Um outro uspecio do System V c Solaris 6 a disponibilidade dc semśforos que, em essćncia, funcionam como 
descrito no exemplo produtor-consumidor dado neste texto. 

Mais urna facilidade proporcionada por todos os sistemas UNIX ć a capacidade de ter miiltiplos threads de 
controle dentro de um dnico processo. Esses threads de controle, usualmente denominados apenas threads. sao 
como processos !eves que compartilham um espaęo de endereęo comum e tudo o que esta associado com esse espa 
ęo de endereęo, como descritores de arquivo. variaveis ambientais e temporizadores importantes. Contudo, cada 
thread tern seu próprio contador de programa, seus próprios registradores e sua própria pilha. Quando um thread 
bloqueia - - isto e, tein de parar por um certo tempo ate li/S concluir ou alguin outro evento acontecer —, outros 
threads no mesmo processo continuam aptos a executar. Dois threads no mesmo processo, que operom como pro- 
dutor e consumidor, sao semelhantes, mas nao identicos, a dois processos, cada um com um unico thread, que estao 
compartilhaiulo um segmentu de memória que contem um buifcr. As diferenęas tent a ver com o falo dc que, no 
ultimo caso, cada processo tern seus próprios descritores de arquivo etc., ao passo que, no primeiro caso, todos esses 
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ilens sSo compartilhados. Vimos a ulilizaęilo de threads Java no exemplo produlor-consumidor que demos anlcs. 
Muilas ve/.es o sistema de exccuę3o Java usa uin thread de sistema opcracional para cada um de seus threads. mas 
nao precisa fazcr isso. 

Como exemplo de onde os thread poderiam ser uteis, considere um servidor da World Wide Web. Essc ser- 
vidor poderia mantcr unia caclie de pdginas Web comumente usadas na memória principal Se chegar urna rcqui 
sięSo para urna pdgina Web que estś na cache, ela i entregue imcdiatamente. Caso contrdrio, serd buscada no 
disco. Infetizmente. esperar pelo disco tonią muito tempo (normalmente 20 ms), durante o qual o processo ć 
bloqueado e n§o pode atender a novas requisięócs que chegam, mesmo as que sao para pdginas Web que estao 
na cache. 

A soluęao ć ter vdrios threads dentro do processo scrvidor c todos eles compart ilharem u mesma cache de pdgi- 
nas Web. Quando um thread bltH|uear. outros threads poderOn manipular novas requisię5es. Para evitar bloqueios 
seiti threads, poderfamos ter vdrios processos scrvidorcs, mas isso provavelmcntc acarrctaria duplicar a cache. o quc 
despcrdięaria memória valiosa. 

O padrao UNIX para threads 6 denominado pthreuds e ć definido por (PI003.IC). ( omem chamadas para 
gercnciar c sineronizar threads, nias nao dcfinc sc os threads siki gerenciados pelo nticlco ou inteiraniente cm espa¬ 
ęo usudrio. As chamadas de thread mais comumente usadas estio relacionadas nu Tabela 6.0. 

Vamos fazer um breve exame das chamadas de thread mostradas na Tabela 6.9. A primeira chamada. 
pthread create. cria um novo thread. Após conclusSo bem sucedida, hd mais um thread cxecutando no espaęo de 
endereęo do chamador do quc antes da chamada. Um thread que ja realizou seu trabalho e quer encerrar chama 
pthread_exit. Um thread pode esperar que um outro thread saia chamando pthread join. Se o thread esperado jd saiu. 
a pthread Join encerra imcdiatamente. Caso contrdrio, bloqucia. 

Threads podcm sineronizar usando travas denoniinadas mutexes. Normalmente um mutex protege algum 
recurso, como um bulTer compartilhado por dois threads. Para garantir quc somente um thread por vcz acesse o 
recurso compartilhado, threads devem traw o mutex antes de usar o recurso c destravd-lo quando conclufrem seu 
trabalho. Contanto que todos os threads obedeęam a esse protocolo, podcm-se evitar condięócs de disputa. Mutexes 
s#o como semdforos bindrios, isto ć. semdforos que podem assumir somente os valores de De 1.0 nonie 'mutex' 
sc dcve ao falo de quc inutexcs sdo utilizados para garantir cxclusao mutua em algum recurso. 

Mutexes podem ser criados c destrufdos pelas chamadas pthread_mutex_lnlt e pthread_mutex_destroy. respecli- 
vamente. Um mutcx pode estar cm um de dois estados: travado ou destravado. Quando um thread precisa travar um 
inulcx destravado, usando plhread_mutex_lock, a lrava e ajustuda c o thread continua. Contudo. quando um thread 
tenta travar um mutex que jd estd travado. de bloqueia. Quando o thread que colocou a trava antes tiver conclufdo 
a utilizaęao do recurso, devc destraw o mutcx conespondente chamando pthread mutex unlock. 

A finalidade dos mutexcs e travar por curto prazo, tal como proteger unia variavel cnmpartilhada. Nao sao 
cogitados para sincronizaę9o de longo prazo, tal como esperar quc unia unidade de lila fiquc lis re Para sineroniza- 
ęSo de longo prazo stlo foniecidas variaveis de condięao Hssas variaveis sao criadas e destruldas por chamadas a 
pthread_cond Jnit e pthread_cond_destroy, respectivamcntc. 

Unia varidvel dc condiędo 6 usada faz.endo COtn que um thread espere nela e um outro a sina li ze. Por excm- 
plo, ao descobrir que a unidade de lita de que nccessita estń ocupada, o Uiread lin ia pthread cond walt em urna variś- 
vel de condięao que todos os threads concordaram em associar com a unidade de lita. Quando o thread que estii 
usando a unidade de lita por firn concluir seu trabalho, possivcimcnte horas mais tardc, ele usa pthread cond signal 
para liberar exatamenle um thread que estd esperando naqucla variavel de condi^do (sc houver algum esperando). 
Se iienhum thread estivcr esperando, o sinal 6 perdido. Vari(iveis de condięSo nao contam como semdforos. Algumas 
outras opcraęóes tamhćin sdo defmidas por threads. inutexcs c varidveis de condiędo. 


Tabele n.B Principais chamadas de thread P0SIX. 


1 Chamada de thread 

Significado 1 

Pthread_create 

Cria um novo thread no espaęo de endereęo do chamador 

Pthread.exit 

Encerra o thread que estś chamando 

Pthread Join 

Espera que um thread encerre 

Pthread mutex_init 

Cria um novo mutex 

Pthread mutex_destroy 

Destrói um mutex 

Ptluead_mutexJock 

Bloąueia um mutex 

Pthread mutex jinlock 

Desbloąuela um mutex 

Ptluead_cond_lnit 

Cria uma variśvel de condię8o 

Pthread_cond .destroy 

Destrói uma varlśvel de condięao 

Pthread.cond.wait 

Espera em uma variavel de condięAo 

Pthread.cond.signal 

Libera um thread que estś esperando em uma varińve1 de condięSo 
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Gerenciamento de processo em Windows XP 

O XP suporta mulliplos processos quc padem se comunicar e sincroni/ar. Cada processo contćm no mfnimo 
uin ihrcad que, por suu vez. contćm no mfnimo umu fibra (thread lcvc). Juntos, processos, Ihreads e fibras propor- 
cionatn um conjunlo muito geral de ferTamcntas para gerenciar paralelismo em uniprocessadores (maquinas com 
urna unica C PU), hem como cm inultiprocessadores (inaipnnas com vdrias CPIJs). 

Novos processos sao criados u&ando a funędo da API CreateProcess. Essa funędo tern dc/ parfimetros. cada quul 
a>m muitas opęńes. lisse projeto e claramente muito muis complicado do que o esquemu UNIX, no qual fork ndo tern 
parfimetros e exec tent só tićs: ponleiros para o nome de arquivo a executar, o vetor de parametros dc linhas de coman- 
do (analisadas) e as cudeias ambientais. Em termos gerais, os dez parametros para CreateProcess sao os seguintes: 

1. Um pontciro para o nome do arquivo executdvel. 

2 . A linlm de comando em si (nao unalisada). 

3. Um ponieiro para um descritor de seguranęa para o processo. 

4 . Um ponieiro para um descritor de seguranęa paru o thread inicial. 

s. Um bit quc indicu se o novo processo herdu os manipuladores do criudor. 

e. Sinali/adoies diversos (por exemplo, modo erro, prioridade, depuraędo, consoles). 

7. Um ponieiro para as cudeias ambientais. 

a. Um ponieiro para o nome do diretório de trabalho corrente do novo processo. 

9. Um ponieiro para utną eslrutura que dcscreve u jancla inicial na tela. 

io. Um ponteiro para urna eslrutura que retoma 18 valores para o chumador. 

O XP nao impóe neniami lipo de hicrarquia pai-filho nem qualquer outra hierart|uiu. Todos os processos sao 
criados iguulmente. Contudo, yigto que 1 dos 18 parfimetros retornados para o processo criador ć um manipulador 
paru o novo processo, o que permite consideravel controlc sobre o novo processo, ha urna hierurquia implfcita cm 
termos de qucm leni um manipulador para quem. Enibora esses manipuladores nao possani ser passailos diretumen- 
te para outros processos, ha um modo de um processo tomar urna alęa udequada paru um oulro processo e entao 
dar-lhe o manipulador, ponunto a hierarquia de processo implfcita pode nilo durar muito. 

Cada processo no XP ć criado com um unico thread, mas um processo pode criar tnais ihreads mais tanie. 
Criar um thread ć muis siitiples do quc criar um processo: CreateThread tern apenas seis parfimetros, em vez de 

dez: o descritor de seguranęa, o lumunho da pilha, o endereęo de infcio, um parametru definido pelo usudrio, o 

eslado inicial do thread (pronto ou bloqueado) e a ID do thread. O niicleo ć que cria o thread, portanto ele eslć 
claramente cienie dos ihreads isto ć, eles nao sdo implcmentados puramente em espaęo de usudrio, como ć o 
caso em ulguns outros sistemas. 

Quando o mielcu la/ o cscalonamento, ele nao somente escolhe o processo que execulurd em seguidu, mas 
lamiiem i|uul thread naquele processo. Isso significa que o niicleo estd sempre cienie de quuis threads estao prontos 
e quais estao bloqueados. Como sao ohjetos de niicleo, os threads tern descritores de seguranęa c manipuladores. 
Visto que um niunipulador para um thread pode ser passado para um oulro processo, ć possfvel fa/er com que um 
processo controlc os threads em um processo diferente. Essa caractcrfstica ć lilii para depuradores, por excmplo. 

I hreads no XP sao ielativumente caros, porque fa/er urna troca dinńntica de threads requcr entrur no nuclen e 
mais tarde sair dele. Para proporcionar pseudoparalelismo muito leve, o XP fomece fibras, quc sao como threads, 
mas escalonadas em espaęo usudrio pelo programa quc as criou (ou seu sistema dc execuędo). Cada thread pode ter 
varias fibras, do mcsmo modo que um processo poder ter vdrios threads, exceto quc, ijuando umu fibra hloquein 
logicamente, clu se coloca nu fila de fibras bloqueadas e scleciona umu outra fibra para executar no contexto de seu 
thread. O niicleo nao estd cienie dessu transiędo porque o thread continuu execulando, embora possu estar prinieiro 
executundo urna fibra e, em seguida, outra. O niicleo s(i gerencia processos e threads, e ndo fibras. Fibras sao lileis, 
por exemplo, quando programas que gerenciam seus priiprios threads sao portados para XP. 

lid urna ampla variedade de modos dc comunicaęao.possfveis entre processos, incluindo pipes, pipes nomeu 
dos, mailslols, soquetes, chamadas reinotas de procedimento e arquivos compartilhados. Pipes tćm dois modos: byle 
e mensagcin, selecionudos na hora da criaęao. Pipes de modo byte funcionam do mesmo modo quc em UN1X. Pipes 
dc modo meiisagem sao um pouco semelhantes, mas preservum fronteirus dc mensugens, de modo que quatro escri- 
tas de 128 bytes serfio lidas como quatro mensagens de 128 bytes, e niio como urna mensagem de 512 bytes, como 
acontcceriu em pipes de modo byte. Tambćm exislem pipes nomeados, que tćm os mesmos dois modos dos pipes 
normais. Pipes nomeados podem ser usados em urna rede; pipes nonnais, ndo. 

Mailslols sao urna caraclcrfslica do XP que niio estd presente em UNIX. Sao semelhantes a pipes em certos 
aspectos, mas nao em todos. Um dos aspeclos diferenles ć que mailslols tern unia só via, enquanto pipes tern duas; 
outro ć que tambćm podem ser usados em redes, mas ndo garanlem a entregu. Por lim. pennitem que um processo 
envie umu mensugeiu broudcast a muitos receptores, em ve/ de a apenas um. 

Soquetes sfio como pipes, exceto que normalmcnte conectam processos em maquinas diferenles. Todavia, tam¬ 
bćm podem ser usados paru coneclar processos na mesina inaquina. Em gerul, nao hd muilu vantagcm em utili/ar 
unia conexdn por soquete em vez de um pipę ou pipę nomeado para comunicaęao interna & mćquina. 

Chamadas remotas de procedimento sdo um moilo de o processo A fu/er o processo B chumar um proccdimen 
to no espaęo de endereęo dc B em nonie de A e retomar o resultado para A. Ha vdrias restrięóes aos parametros. Por 
cxemplo, ndo fa/ semido passat um ponieiro para um processo diferente. 
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Por firn, processos podcm compartilhar memórin mapeando para o mcsmn arquivn ao mesmo tempo. 
Entlo, todas as escritas fcitas por um processo aparecem no espaęu de endereęo dos oulros processos. Com esse 
mecanismo, o buffer compartilhado usado em nosso exemplo produtor-consumidor pode sei implementado com 
facilidade. 

Exatamente como fomece vdrios mecanismos de comunicaę3o entre processos. o XP tambćm oferece diver- 
sos mecanismos dc sincronizaęao, incluindo semdforos, mulcxes, scęóes crflicas e evenlos. 'Indos esses mecanis¬ 
mos Funcionam em tlireads e nao em processos. de modo que, quando um thread bloqueia em um semaforo, outros 
threads naquele processo, se houver algum. niio sdo afetados e continuam a executar. 

Um semaforo ć criado usando a funęao da API CreateSemaphore. que pode inicializa-lo para um dado valor 
e tambćm definir um va!or maximo. Semdforos sao objetos de micleo e, por isso. t6m descritores de seguranęa e 
manipuladores. O manipulador para um semaforo pode ser duplicado usando DuplicateHandle e passado para um 
outro processo, de modo que varios processos podem sincronizar no mesmo semaforo. Tambćm estao presenles 
chamadas para up e down, embora lenham os nomes um tanio peculiares de ReleaseSemaphore (up) c 
WaitForSingleObject (down). Tambćm ć possfvel dar um intervalo de tempo para WaitForSingleObject. de modo que 
o thread chamador seja liberado a uma certa altura. ainda que o semdforo pcmiancęa cm 0 (embora temporizado- 
res reintroduzam disputas), 

Mutexes tambćm sao objetos de micleo usados para sincronizaęao, porćiu inais simples do que semdforos por- 
que nao tćm contadores. Siio, em essencia, travas, com funęóes da API para travar (WaitForSingleObject) e destravar 
(ReleaseMutex). Assim como manipuladores de semdforo, manipuladores de mutex tambćm podem ser duplicados e 
passados entre processos, de modo que threads em diferentes processos podem acessar o mesmo mutex. 

O terceiro mecanismo de sincronizaęao e baseado em seęóes criticas. que sao similares a mutexes, porem 
locais no espaęo de endereęo do thread criador. Como nao sito objetos de micleo, as seęńes crfticas nao leni mani¬ 
puladores nem descritores de seguranęa e nao podem ser passadas entre processos. Travamento e destnmtmento sao 
realizados com EnterCriticalSection e LeaveCriticalSection, respectivamente. Como essas funęóes da API sao executa- 
das intciramenle cm espaęo usudrio, sao muito inais rdpidas do quc mutexcs. 

O ultimo mecanismo de sincronizaęao usa objetos de nticleo denominados eventos. Um thread pode esperar 
que um evento ocorra com WaitForSingleObject. Um thread pode liberar um tinico thread que estd esperando em um 
evcnto com SetEvenl ou pode liberar lodos os threads quc estao esperando em um evcnto com PulseEvent. Eventos 
vĆm em diversos sabores c tambćm tent uma variedade de opęóes. 

Eventos. mutexes e semdforos podem ser nomeados e armazenados no sistema de arquivos. assim como pipes 
nomeados. Dois ou mais processos podem sincronizar abrindo o mesmo evento, mutex ou semdforo. em vez de 
Inzer um deles criar o objęto e entiio duplicar manipuladores para os outros, embora, sem dtivida, essa tiltima abor- 
dagem tambćm seja unia opędo. 

0.5 Resuino 

O sistema operacional pode ser considerado como um intćrprete para cerlas caracterfsticas de arquitetura 
udo encontradas no nfvel ISA. Entre as principais estdo memória virtual, instruęóes de P./S virtual e facilidades 
de processamento paralelo. 

Memória virtual e uma caracterfstica de arquitetura cuja finalidade e permitir que programas usem espaęo dc 
endereęo maior do que a memória ffsica du maquina, ou proporcionar um mecanismo consistente e flexfvel para 
protcęao e compartilhamento dc memória. Ela pode ser implementada como paginaęao pura. segmcntaęao pura ou 
uma combinaęao das duas. Em paginaęao pura. o espaęo de endereęo ć desmembrądo em paginas \ irtuais de tama 
nhos iguais. Algumas delas sao mapeadas para quadros de pagina fisi cos. Outras nao sao niapeadas. Uma referćn- 
cia a uma pdgina mapcada ć traduzida pcla MMU para o endereęo ffsico correto. Uma referfincia a uma pagina 
n3o mapeada causa uma falta de pdgina. Ambos, Pentium 4 e UltraSPARC HI. tern MMUs que suportam memó¬ 
ria virtual c paginaęao. 

A mais importante abstraęao de E/S presente nesse nfvel ć a de arquivo. Um arquivo consiste em uma seq(i6u- 
cia dc bytes ou registros lógicos quc podem ser lidos c escrilos sem saber como discos, fitns c outros dispositivos 
de E/S funcionam. Arquivos podem ser acessados em seqU6ncia. aleatoriamente por ntimero de registru, ou aleato- 
riamentc |ior chave. Diretórios podem ser usados para agrupar arquivos. Arquivos podem ser armazenados em seto- 
res consccutivos ou espalhados pelo disco. No ultimo caso, normal em discos rfgidos, sao nccessdrias estruturas de 
dados para localizar todos os blocos de um arquivo. O annazcnamenlo livre cm discos pode ser nionitorado usan¬ 
do unia lista ou um mapa de bits. 

Processamento paralelo ć freqttentemente suportado e ć implementado simulando iniiltiplos processadores que 
compartilham tempo em uma unica CPU. Interaęao nao conlrolada entre processos pode levar a condięóes de disputa. 
Para resolver esse problema, siło introduzidas primitivas de sincronizaęao, das quais os semdforos s3o um exemplo 
simples. Usando semdforos, problemas de produlor-consumidor podem ser resolvidos com simplicidade e elegancki. 

Dois exemplo$ de sisteinas operacionais sofisticados sao UNIX e XP. Ambos suportam paginaęao e arquivos 
mapeados na memória. Tatnbćm suportam sistemas hierdrquicos de arquivos, sendo que os arquivos consistem em 
seqiiencias de bytes. Por firn, ambos suportam processos e threads e proporcionam nieios de sincronizd-los 




Problemas 

1. Por que um sistema operacional interpreta somente algumas das instruęócs de m'vel 3, cnquanto urn micropro- 
gramu interpreta loda:* as instruęóes de tn'vel ISA? 

2 . lima mdquinu tern espaęo de endereęo virlual de 32 bits endercędvel por byte. O tamanho da pdgina e 4 KB. 
Quanlus pdginas de espaęo de endereęo virtual existem? 

3. li necessario que o tamanho da pdgina seja uma polćncia de 2? Urna pdgina de 4.(XX) bytes de tamanho, por 
esemplo, poderia ser implemenlada, em teoria? Caso a resposla seja positiva, isso seria pratico? 

4 . Uma memória virtual tern um tamanho de pdgina de 1.024 palavras. oito pdginas virluais e quutro ąuadros dc 
pdginas fis i cos. A tabela de pdginas ć a seguintc: 



0 3 

1 1 


2 nao esta na memória principal 

3 nao esta na memória principal 

4 2 

5 nao estd na memória principal 

6 0 

7 nao esta na memóna pnncipal 


a. Faęa uma lista de todos os endereęos virtuais que eausardo faltas de pdgina. 

b. Quais sao os endereęos fisieos para 0, 3.728, 1.023, 1.024, 1.025, 7.800 e 4.096? 

5. Um computador tein 16 pdginas de espaęo de endereęo vinual mas apenas quatro quadros dc pdgina. De inf- 
cio, a memória estd va/ia. Um programu referenda as pdginas virtuais nu ordera 

0, 7, 2, 7, 5. 8. 9, 2, 4 

a. Quais refcrencius causam uma falta dc pdgina com l.RU? 

b. Quais refcrencius causam uma falta de pdgina com F1FO? 

6 . Na Seęao 6.1.4 foi apresenludo um algoritmo puru implementar uma estralćgia dc subslituięao de pdginas 
FIFO. lnvenle uma estratógia muis eficiente. Su ges Ido: 6 posslvel atualizar o conlador na pdgina reećm-earre- 
gudu sent mexcr nas outrus. 

7. Nos sistemas puginados iliscutidos no texto, o iratador dc falta de pdgina era parte do iuvd ISA e, por isso, 
nao estava presente no espaęo de endereęo de qualquer programu de mvel OSM. Nu realidudc, o iratador ile 
falta de pdgina tamhem ocupa pdginas, e cle mesmo poderia ser removido sob certas circunstdncias, por excm- 
plo, politica dc substituięao de pdginas FIFO. O que aconteccria se o tratudor de falta dc pdgina nao eslivesse 
presente quando ocorresse uma falta de pagina? Como isso poderia ser consertado? 

8. Nem todos os computadores t&m um bit de hardware que 6 automuticamentc ajustado quando uma pdginu sofie 
urna eserita. Nao obstanie, ć util monitorar quais pdginas forum modificudas (»ara cvilar supor o piór dos casos 
e cscrever lodas as pdginas de volia para o disco após a utilizaędo. Admilindo que cuda pdgina tenha bits de 
hardware paru liabilitar uccsso para leitura, eserita e exccuędo em separado, como o sistema operacional pode 
monitorar quuis pdginas cstdo limpas e quais estao sujas? 

9 . Uma memória segmentada tern segmentos paginudos. Cada endereęo virtual tern um nurnero de segntento de 
2 bits, um niimcro de pdgina de 2 bits e um deslocamento de 11 bits dentro da pdgina. A memória principal 
contem 32 KB divididos em pdginas de 2 KB. Cada segntento e somente de leitura, ou de leitura/execuęao, ou 
de leitura/escrita, ou de leitura/escrita/execuędo. As labelus de paginus e u proteęao sdo as seguintes: 


Somente de leitura 

Leitura/execuędo 

Leitura/escrita/execuędo 

Leitura/escrita 

Pagina 

Quadro de 

Pagina 

Quadro de 


Pagina 

Quadro de 

vtrtual 

pagina 

virtual 

pdgina 


virtual 

pdgina 

0 

9 

0 

Em disco 


0 

14 

1 

3 

1 

0 

Tabela de pdginas nao 

1 

1 

2 

Km disco 

2 

IS 

pnncipal 

2 

6 

3 

12 

3 

8 


3 

Em disco 
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Para caila um dos scguintes acessos a memória virtunl. diga qual 6 o endereęo f(sico calculado. Se ocorrer unia 
falta, informc o lipo. 



Segmento 

Pśglna Desloc; 

imento dentro da pńglna 1 

1. busąue dados 

0 

1 

i 

2. busque dados 

1 

1 

10 

3. busque dados 

3 

3 

2.047 

4. armazene dados 

0 

1 

4 

5. armazene dados 

3 

1 

2 

6. armazene dados 

3 

0 

14 

7. desvie para 

1 

3 

100 

8. busque dados 

0 

2 

50 

9. busąue dados 

2 

0 

5 

10. desvie para 

3 

0 

60 


10. Alguns computadores pcrmitcm E/S diretamentc para cspaęo de usuario. Por exemplo, um programa podcria 
iniciar urna transfcreneia de disco para um bufTer dentro de um processo usudrio. Isso causa algum problema 
se for usado cnmpactaęao para implementar a memória virtual? Discuta sua resposta. 

11. Sistcmas opcracionais que pcrmitcm arquivos nuipeados na memória sempre rcqucrem que um arquivo seja 
mapeado cm fronlciras de paginas. Por cxcmplo. com pdginas dc 4 KB. um arquivo pode ser mapeado comc- 
ęando no endereęo virtual 4.096. mas ndo comeęando no endereęo virtual 5.000. Por que ’ 

1 2 . Quando um registrador de segmento e carregado no Pentium 4, o descritor correspondenle ć buscado e carre- 
gado em uma parte invisfvel do registrador de segmento. Na sua opinido, por quc os projetistas da Intel dcci- 
diram fazer isso? 

13. Um programa no Penlium 4 referenda segmento local 10 com deslocamento H.fKMI. O cnmpo BASE do seg- 
mento LDT 10 contćm 10.(HM). Qual entrada dc pdgina de direlório o Penlium 4 usa? Qual 6 o ndmero da pdgi- 
na? Qual i o deslocamento? 

14. Discuta alguns algorilmos possfveis para rcntiner segmentos em uma memória nilo paginada. mas segmentada. 

15. Compare fragmentaęao interna com fragmentaęao cxlcma. O que pode ser fcito para atenuar cada uma dclas? 

16. Supennercados enfrentam constantcmcntc um problema similar d substituiędo de pdginas cm śistemas de 
memória vii1ual. Eles tćm uma quantidadc fixa de cspaęo de prateleira para cxihir um miniero cada vcz maior 
de produtos. Sc aparecer um novo produto importante, por cxcmplo, raędo caninu 100% eficiente. alguns pro- 
dutos existentes devem ser retirados do estoque para abrir espaęo para cle. Os algorilmos óbvios sao LRU e 
F1FO. Qual deles vocfi preleriria? 

17. Sob certos aspectos. caching e paginaęao sao muito similares. Em amhos os casos hd dois nfveis de memória 
(a cache e a memória principal no primeiro e memória principal e disco no ultimo). Ncste capitulo comenta- 
mos alguns argumentns em favor de pdginas de disco grandes e paginas de disco pequcnas. Os mesmos argu 
mentos sao vdlidos para tainanhos de linhas de cache? 

18. Por que muilos sistcmas dc arquivo requcrem que um arquivo seja explicitamentc aberto com uma chamada 
de sistema open antes de ser lido? 

19. Compare os mótodos cle mapa de bits e de lista de lacunas para monitorar o cspaęo livrc em um disco com 800 
eilindros. cada um com 5 trilhas de 32 setores. Quantas lacunas seriam necessdrias antes qne uma lista de lacu¬ 
nas ficasse maior do que o mapa de bits? Adniita (|ue a unidade de alocaęiio e o setor c que a lacuna requer 
uma entrada de tabela de 32 bits. 

20 . Para poder fazer algumas previsóes dc desenipenho de disco ć util ter um modclo dc alocaęao de armazena 
mento. Suponha que o disco 6 visto como um cspaęo de endereęo linear dc N » I setores, consistindo em uma 
carTeira de blocos de dados c assim por dianie. Se medidas empfricas mostrarem quc as distribuięfies de pro- 
babilidadc para comprimentos dc dados e lacunas sSo as mesmas, com a cliance de qualquer uma dclas ser 
igual a i setores com 2 ~', qual e o mimem de lacunas esperado no disco? 

2 1. Em um certo compulador. um programa pode criar tantos arquivos quantos precisar e todos os arquivos podem 
crescer dinamicainente durante a execuędo sem dar ao sistema operacional qualquer informaęSo antecipada 
sobre seu tamanho finał. Na sua opiniao, aqueles arquivos sao armazenados em setores consecutivos? 
Explique sua resposta. 

22 . Estudos de diferentes sistcmas dc arquivo mostraram (|ue inais da inetade dos arquivns sao de alguns poucos 
KB ou menos, e a vasta maioria dos arquivos 6 menor do que uns 8 KB. Por oulro lado. os 10% correspondcn- 



tes aos maiorcs iirquivos usualmenle ocupam cerca de 95% dc (odo o espaęo de disco eni uso. Co ni esses dudos 
em maos, a que conclusao voce pode chegar sobre o tamanho do bloco de disco? 

23 . Considcrc o seguinle metodo pelo qual um sistema operacional poderia implemeniar instruęfies de semdforo. 
Scmprc que a CPU cstiver prcsles a fazer urna up ou umu down cm um seindloro (urna vuridvc) inteira na 
memória), em primeiru lugar ela estabelecc a prioridade da CPU ou mascara bils de modo lal que desabililc 
I od as as intcrrupęóes. Hntdo ela busca o semdforo, o modifica e desvia de acordo. Por firn, cla habilita inter- 
rupęóes novamente. Esse mćtodo funciona se 

a. Homer urna unica CPU quc troca processos a cuda 100 ms? 

b. Duas CPl s compartilharem uma memória comum na qual o semdforo esta localizado? 

24 . A Nesercrash Opcruling System Company vem recebendo qucixas de alguns dc sens clicnlcs sobre seu ulti¬ 
mo lanęamenlo, que inclui operaęóes de semdforo. Eles acham imoral que os processos bloquciem (o que cha- 
mam dc •Jormir no trubalho'). Uma vez quc a polftica da empresa ć dar aos clicnlcs aquilo quc eles descjuin. 
foi proposto adicionar uma terceira opcraędo, peek (espiar), paru suplcmcntur up e down. Peek simplesmente 
exutuinu o seniuforo sent alterd-lo nem bloqucar o proccsso. Desse modo, programas que acham quc ć imoral 
bloqucar podcm inspccionur o semdforo anies pata ver se ć seguro fazer umu down. Hssa ideia funcionard se 
tres ou mais processos usarem o semdforo? E sc dois processos usarem o semaforo? 

25 . Monte umu tabela paru mostrar quais dos processos — PI. P2 e P3 — estao executundo c quais estao bloquea- 
dos como umu funęto dc tempo de 0 a I .(KM) ms. Todos os trćs processos cxcculain instruęfies up e down no 
mesmo semdforo. Quundn dois processos sdo bloqucudos e ć iculizadu umu up, o proccsso quc tiver o nihne- 
ro mais buixo i reiniciado, isto ć, PI ohtem prcfcrencia sobre P2 c P3 e assim por diunie. No infcio, todos os 
tres estao cxccutando e o semaforo esta em 1. 

Em i KM) PI la/ uma down 
Em / - 2(M) PI luz umu down 
Em i = 300 P2 faz umu up 
Em i 400 P3 faz uma down 
Em i = 500 PI faz uma down 
Em i 600 P2 laz uma up 
Em i Ł 7(M) Pi faz uma down 
Em i — 800 PI tuz umu up 
Em l = 9<M) PI faz uma up 

26 . Em um sistema dc resmus de passugens aereas e ncccssario garantir que, enquanlo um processo estivcr ocu- 
pado usandu um urquivo, nenhum mitro proccsso poderd usd- lo. Caso contrario, dois processos diferentes, quc 
trabalham para duas agćncias dc viagens diferentes, poderiain, inadvertidatnente, vcnder u óltima poltroiut cm 
algum v6o. Imente um mćlodo dc sincrnnizaęao que use semdforos paru garantir i|uc somenle um proccsso 
por vez possa acessar cuda arquivo, considerundo que os processos obedecem its regras. 

27 . Paru possibilitar a implementaędo de semdforos em um computador com varias CPUs que compartilham uma 
memória comum. os arquitetos de computadores costumam fornecer a instruęao Test e Set I .ock (Teste e Trave 
a Trava TS1.). TSL X tesla a localizaęao X. Se o.conteudo for zero, elas sao ujustndas para I em um unico 
ciclo indivisfvel de memória e a próxima instruęao e saltada. Se for nao-zero, a TSL age como uma no-op. 
Usando TSL 6 |>oss(vcl escrever procedimentos lock e unlock com as seguintes propriedades: lock (x) verifica 
para ver se x esta iravadu. Se nao estiver, ele trava x c devolve o controle. Se cja cstivcr travada, ele espera ate 
que x seja destrasada. entao trava x e devolve o controle; unlock libera uma trava existentc. Se todos os pro¬ 
cessos truvarem u tabela de semńforos antes c a usarem somenle um processo por vez, pode-se mexer nas variil- 
veis e ponteiros, evitando disputus. Escreva lock e unlock em linguagem de montagem. Considere tudo o quc 
for ntzoavel. 

28 . Mostre os valorcs dc In e out para um buffer circular de 65 palavras de comprimento após cada uma das seguin- 
tes operat,ńcs. Ambas iniciam ein 0. 

a. 22 palavrus sao colocadas 

b. 9 palavras sao retiradas 

c. 40 palavras sao colocadas 

d. 17 palavrus sdo retiradas 

e. 12 palavrus sdo colocadas 

i. 45 puluvrus sao retiradas 

g. 8 pako ras sdo colocadas 

h. 11 pulavms sfui retiradas 

29 . Suponha que umu \crsdo do UNIX use blocot de disco dc 2 KB c armazene 512 endereęos de disco por bloco 
indireto (ónico, duplo e triplo). Qual seria o tamanho mdximo de arquivo? (Considere que os ponteiros de 
urquivo tein 64 hits dc largura. 
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30. Suponlia quc a chainatla dc sistcma UNIX 

unlink(7usr/ast/bln/game3") 

fosse cxeculada no conlexlo da Figura 6.31. Dcscreva cuidados,-mienie quais sao as alteruębes ftilas no siste- 
ma de direlórios. 

31. Imagine que vocć tivesse dc implcmcntar o sisicma UNIX cm um microcomputador cuja mcmória priucipal 
fosse pequcna. Após considcravcis ajustcs aqui c ali, ele ainda nUo cabe muilo hem. portanto voce escolheu 
alealoriamcntc urna chamada dc sLstema pura sacrilicar cm prol do bem gera). VocS escolheu pipę. que cria os 
pipes usados para cnviar correnles de bytes de um processo pani outro. Ainda ć possfvcl. de alguma forma, 
implcmcntar redirccionamenlo de E/S? F. pipelines? Discuta os problemas e as possfveis soluęfies. 

32. O Comitfi de Justięa para os Descritorcs de Arquivo esta organi/ando um proteslo contra o sistema UNIX por 
que. loda vez quc estc retorna um descrilor dc arquivo. semprc retoma o numero mais bnixo que nao estó cor- 
rcnlcmcnle em uso. Hm consequćncia. descritores de arquivo dc numero mais alto quase nunca sao utilizados. 
O piano e retomar o numero mais baixo que ainda nao foi utili/ado pelo programa cm vez do numero mais 
baixo quc nao estd cnrrcntcmenlc em uso. O Comitfi declara quc a implemcntaęiio e trivinl. quc nao afctar.1 os 
programas existentes c quc ć mais justo. O que voce acha? 

33. Em XP ć possfvel estabelecer urna lista dc controJe de acesso de modo tal que Roberta mlo tenha nenhum accs- 
so a um arquivo. mas lodo o resto do pessoal tenha acesso a cle. Na sua opiniao, como isso ć implementado? 

34. Descrcva dois modos diferentes de programar problemas de produtor-eonsumidor usando bulTers compartilha- 
dos c semdforos em XP. Pense em como implementar o bulTcr compartilhado cm cada cuso. 

35. Ś comurn lestar algoritmos dc substituięiio dc pagina por simulaędo. Neste exercfcio vocć devc cscrevcr um 
simulador para memória virtual bascada cm paginas para urna tndquina com 64 pdginas dc I KB. O simula- 
dor deve manier urna unica tabela de 64 entradas. unia por pagina, que contćm o numero dc pagina ffsica cor- 
respondentc dquela pagina virtual. O simulador deve ler um arquivo quc contćm endcreęos virtuais em sistc- 
nm dccimal. um endereęo por linha. Se a pagina correspondente esliver na memória, apenas rcgislre unia 
presenęu de pagina. Se cla ndo cstivcr na memória, chanie um procedimenlo dc suhstitoięSo dc pdgina pani 
cscolhcr urna pagina para extrair (isto ć, urna entrada nu tabela a ser sobrescrita) c rcgislre urna ausćncia de 
prigina. Na rcalidadc. nflo ocorre nenhuni transportc de pdgina. Gcrc um arquivo quc consiste em cndcrcęos 
nlcatorios e tesle o desempenho para LRU e FIFO. Em seguido. gere uin arquivo dc cndcrcęos no qual ,t% dos 
cndcrcęos sao quatro bytes mais altos do quc o anterior (para simular localidadc). Bxecute testes para vćrios 
valorcs de .r e informe os respectivos rcsultailos. 

36. O programa da Figura 6.24 leni unia condięSo de disputa fatal porque dois threads accssam varidveis compar- 
tilhadas de modo ndo controludo, sem usar semdforos nem qualqucr outro mćtodo de esclusdo mutua. Exccutc 
esse programa para vcr quanto tempo cle leva para parar. Sc vocć na«i conseguir fa/ć In parar. modifique o 
para aumentar o tamanho da janela dc vulncrabilidade colocando algum proccssaincnto de computaęao enlrc 
ajustar m.in e nuout e testd-los. Quanla computaęao vocć leni de colocar antes que cle falhc, por exemp!o. unia 
vez por hora? 

37. Escreva um programa para UNTX ou XP que toma como entrada o nonie de um diretńrio. O programa deve 
imprimir unia lista dos arquivos no diretório. urna linha por arquivo e, depois do nomc do arquivo. imprimir o 
tamanho do arquivo. Imprima os nomes de arquivos na ordem em quc ocorrcm no diretório. Posięóes nao uti- 
lizadas no diretório dcvcm ser relacionadas como (nao-utilizadns). 


O nivel de linguagem 
de montagem 


N os capllulos 4,5 e t> discutimos tres nlveis diferentes presentes na maioria dos computadores eontentporflneos. lisie capf- 
lulo trata primordialmente de um (nitro nivel que, em essfincia, lambćm estś presente eni todos os computadores moder- 
nos: o mvel da linguagem de montagem. O nfvel da linguagem de montagem tein urna caracterfslica signiftcativamente 
difeieijie em rclaęao aos m'veis da mieroarquiletura, ISA e de maquina de sisleinu operacional — e impluulado por traduędo 
em vez de intcrpretaęao. 

Prograrnas que convertem um programu de usuario escrito em alguma linguagem para urna outra linguagem sao denomi 
nados tradutores A linguagem na qual o programu original ć escrito ć denominadu liiiguagem-fonte, e a linguagem para a 
qual ela e comertidu e denominadu linguagem-uho. Amhas, linguagem-fonte e linguagem-alio, definem imeis. Se houver um 
processador disponfvcl que possa cxecutar diretamente prograrnas escritos cm linguagem-fonte, nao ha nenhuma neccssidade 
dc traduzir o programu-fonie paru a linguagem-ulvo. 

A traduęao e usada ijuundo ha um processador (hardware ou um interpretador) dispont vet para a linguagem-ulvo, mus nao 
para a linguagem fonte. Se a tiaduęao foi realizada corretumente, a execuęao do programu truduzido dani cxalamcnte os mes- 
mos resultados que a cxecuęao do progruma-fonte duriu se houvesse um processador disponivel para ele. Por conseqliencia, e 
posstvel implementar um novo nfvel para o qual nao hó nenhum processador, em primeim lugar traduzindo prograrnas escri¬ 
tos para esse nivel para um nfvel-alvo e em seguidd cxecutando os prograrnas no ntvel-alvo resultante. 

li import unie observar a diferenęa entre traduęao, de um lado, e interpretaęao, ile outro. Na traduęao. o programu origi¬ 
nal na linguagem fonie n&o e executado diretamente. Hm vez disso, ele e converiido para um programu equivulcnte denomina- 
do programa-objelo ou programu hinario cxmitavel. cuja execuęao e realizada somente após a conclusao da traduęilo. H.i 
duas etapus dislintas nu traduęjo: 

i. Geruęao de um prognuna equivalente na linguagem-alvo. 

2 . Hxecu^ao do programa reećm-gerado. 

Hssus duas etapus nao ocorrem simultaneamente. A segundu etapu só comeęa após a conclusao da primeiru. Em interpretacjo 
ha upenas urna clapa: execuęjo do programu-fonte original. N jo ć preciso gerur nenhum programu equivalente unieś, emhoru, 
as vezes, o programa-fonte seju convertido para urna forma intermediaria (por exemplo, código de hytes Java) para facilitar a 
interpretacjo. 

Enquanto o programa-ohjeto esti sendo executado, apenas tres nfveis estjo em evidencia: o mvel da microari|uitetura, o 
nivel ISA e o n(vel de miiquina de sistema operacional. Por conseqiiencia, tres prograrnas — o programa-ohjeto do usudrio, o 
sistema operacional e o microprograma (se houver algurn) — podent ser encontrados na memória do computador durante a 
execuęao. Todos os vcstfgios do programa-fonte original desapureceram. Assiin, o mimem de niveis presentes durante o tempo 
de execucao pode ser diferente do numero de nfveis presentes antes da tradneao. Enlrctanto, deve-se observar que, embora deft- 
numos um nfvel pelus iustrucóes e eonslruędes lingUtsticas disponiveis paru seus programadores, e nao pelu tćcnica dc imple¬ 
mentacjo, outios uutores *is vezes fazem maior distinęjo entre nfveis implcmentados por iuterpretadores durante u execuęflo e 
nfveis implementados por truduęSo. 
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7.1 Introduęao a linguagem de montagem 

De modo geral, tradutnres podem ser divididos em dois grupos dependendo da rclaęSo cntre a linguagcm-fonte 
e a linguagcm-alvo. Qunndo a linguagein-fontc ć, em cssćncia. urna represcntaęAo simbólica para urna linguagem 
de mtUpiina numćrica, o iradutor ć denominado assembler (montador) e a linguagem-fonie ii denominada lingua 
gem de montagem ( assembly language). Quando a linguagcm-fontc ć uma linguagem de alto nfvel como Java ou 
C e a linguagem-alvo ć uma linguagem de m<1quina numćrica ou uma representAęAo simbólica de uma linguagem 
de maijuina numćrica. o Iradutor ć denominado cnmpilador 

7.1.1 O que e uma linguagem de montagem? 

Uma linguagem de montagem pura ć uma linguagem na qual cada declaraęiio produz exalamente uma instru- 
ęao de miquina. Em outras palavras. hd uma correspondćncia um-pnra-um enlre instruęóes de mdquina c dcclara 
ęoes no programa de montagem. Se cada linha no programu cm linguagem dc montagem contiver cxalamcnlc uma 
declaraęAo c cada palavra de indquina contivcr exatamente uma instruęAo de mdquina. cntAo um programa de mon¬ 
tagem de n linhas produ/ird um programa de linguagem de ntdquina dc n palavras. 

A raziło por que as pessoas u sam linguagem de montagem. ao contrdrio de programaęAo em linguagem de tndqui- 
na (em hexadecimal), ć quc ć muito mais fdcil programar em linguagem de montagem. A utilizaęAo de notnes simbó- 
licos e endcreęos simbólicos em vcz de bindrios ou octais faz uma enomie diferenęa. A maioria das pessoas pinie se 
lembrar de que as ahreviaturus para somar. subtrair. multiplicar e dividir sao ADD. SUB. MUL e DIV. mas poucas cnn- 
segucm se lembrar dos salores numćricos corTespondentes quc a mdquina usa. O programador de linguagem de mon¬ 
tagem só precisa se lembrar dos nomes simbólicos porque o asscmbler os Iraduz para instruęóes de maquina. 

As incsmas obserotęóes se aplicam a endcreęos. O programador de linguagem de montagem pode dar notnes 
simbólicos a localizaęóes de memória c dcixar para o assembler a preocupaęao de fomccci os valores numćricos 
corretos. O programador dc linguagem de mltquina deve sentpre trabalhar com os valores numćricos dos endcreęos. 
Como conseqil6ncia, hoje ningućm programa cm linguagem de mdquina, embora isso ucontccesse dćcadas atras, 
antes da invenę3o dos asscmblers. 

l.inguagcns de montagem tern uma outra propriednde. alćm do mapeamento um-para-um de declaraęóes em 
linguagem de montagem para instruęóes dc mćquina. que as distinguem de linguagens dc alto nfvel. O programa¬ 
dor de linguagem dc montagem tent acesso a todos os aspectos c instruęóes disponfvcis na mńquina-alvo: o progra¬ 
mador dc linguagem de alto n(vcl n3o tem. Por excmpló. se a mriquina-alvo tern um bit de vai-um, um programa 
em linguagem dc montagem pode testd-lo, mns unt programa em Java nao pode lestń-lo diretamente. O programa 
cm linguagem de montagem pode exccutar todas as instruęóes presentes no conjunlo dc instmędo da maquina-alvo. 
mas o programa em linguagem de alto nfvel nao pode. Em suma, ludo o que pode ser feito em linguagem de nt3qui- 
na pode ser feito cm linguagem de montagem. mas muitas instruęóes. registradores e caracterfsticas similares nAo 
eslao disponfveis para utilizaęAo pelo programador de linguagem de alto nfvel. Linguagens para programaęAo de 
sistemas, como a C. freqllentcmcnle sao um bfbrido desses tipos. com a sintaxc de uma linguagem de alto nfvel. 
mas conservando muito do acesso A mćquina de uma linguagem dc montagem. 

Uma diferenęa finał quc valc a perm cxplici(ar e que um programa cm linguagem dc montagem só pode ser 
executado em uma famflia de mdquinas. ao passo que um programa escrito em urna linguagem de alto nfvel tem a 
capacidade polcncial de ser cxecutado em muitas mdquinas. Essa capacidade de transferir software dę uma maqui- 
na para outra ć de grandę importancia pratica para muitas aplicaęóes. 

7.1.2 Por que usar linguagem de montagem? 

Programaęao em linguagem de montagem ć diffcil — nao se iluda. NAo ć para ctwardes e fracotes. Alćm do mais. 
cscrcver um programa cm linguagem de montagem demom muito mais do que escrevcr o mesmo programa em uma 
linguagem de alto nfvel. E tambćm dentora muito mais para depurar. alćm de a manutcnęAo se> muito mais diffcil. 

Dndas essas condięócs. por que algućni programaria cm linguagem de montagem? Hd duas razóes: desempc- 
nho e acesso A nidquitm. Antes de tudo. um programador espccializado em linguagem dc montagem pode produzir 
muitas vezes código muito menor e muito mais rdpido do que um programador de linguagem de alto nfvcl. Para 
algumas aplicaęóes. rapidez e tamanho sAo crfticos. Muitas aplicaęóes embutidas. como o código em um cartAo inte- 
ligcnte (Stuart card), o código em um telefone celular, driyers dc dispositivos. rotinas de BIOS e os laęos intemos 
de aplicaęóes de desetnpenho crftico caem nessa categoria. 

Em segundo lugar. alguns procedimcntos precisam de acesso completo ao hardware, algo que As vezes e itnpos- 
sfvcl cm linguagens de alto nfvcl. Por exeniplo, os tratadores ile inlemipęócs c cxceęóes de baixo nfvel em um sistema 
o|X!tacional e os controladores dc dispositivos em muitos sistemas etnbutidos dc tempo real caem nessa categoria. 

A primeira razao para prograntar em linguagem de montagem (obter alto desetnpenho i costuma ser a mais 
importantc, portanto vamos estuda-la mais de perto. Em grandę parte dos programas, uma pequena poacntagem do 
código total ć responsćvcl por uma grandę poraentagem do tempo de execuę§o. E comum que 1% do programa seja 
respons.1vel por 50% do tempo de cxecuęAo e 10% do programa seja responsavel por 00% do temprt de execuęAo. 

Suponlta. por exemplo. que escrever algunt programa em uma linguagem de alto nfvel requer 10 programado- 
res-anos e que o programa resultante requer 100 segundos para executar um tesle tfpico. Escrever o programa intei- 
nt em linguagem de montagem poderia requerer 50 programadores-anos. devido A produlii idatle mais baixa de 




programadores ile linguagem de niontagem. O programa fmal poderia executar o padrao de comparaęao em cerca 
de 33 segundos porque um programador inieligente pode ganhar de uin coinpilador inleligenie por um falor de 3 
(entbora luju inlmd4veis controvćrsias sobie essas relaęócs). Essa situuęao e ilusirada na Tabela 7.1. 

Com base nessa observaęao dc que siwienie urna minuscula Iraęao do eódigo e iesponsavcl pcla nuior parte do 
tempo de execuęao, e possfvel urna outra abordagem. Primeiro o programu e escrito em unia linguagem de altu nfvel. 
Eman 0 reali/uila urna serie ile mcdięóes para detenninar quais partes do progi arna sao responsaveis pcla maior parte 
do tempo de cxccuv&o. lais mcdięóes normalnienie incluiriam usar o relógio do sistema para calcular a quanlidade 
de tempo gasła cm cuda proccdimento, monitorar o mimero de vczcs ijue cuda laęo e executado c etapas similares. 

Como excntplo. s amos admitir que 10% do programa totul ć responsdsel por 90% do tempo de execuęio. Isso 
signitlca que. para unia turefa de l(H) segundos, 90 segundos sao gustos com esses 10% crilieos e 10 segundos sao 
gastos com os lestantes ‘70% do programa. Agora, os 10% crfticos poiłem ser melhorados, reescrevendo-os em lin¬ 
guagem de niontagem. Essc processo e denominudo ajuste e ć ilustrado nu Tabela 7.1. Aqui sao necessdrios mais 
anco programudores-anos paru reescrever os procedimenlos crfticos, mas scu tempo de execuęio e red uzi do de 90 
segundos paru U) segundos. 

E instrulKo compurar a abordagem inista linguagem de alto m'vel/linguagem de niontagem cum a versao em 
linguugem de niontagem pura (veja a Tabela 7.1). A ultima 6 cerca de 20% mais rapida (33 segundos contra 40 
segundos). mus o preęo 6 mais do quc tres vezes mais alto (50 programudores-anos contra 15 programadores anos). 
Alćtn do mais, u vaiuagem da abordagem misia e realmente maior do que u indicuda, porque recodificar para códi- 
go de moniagem um procedimento escrito em linguagem de alto nlvel e jd depurado e, de lato, muito mais lacil do 
quc escrever o inesmo procedimento em eódigo de montagem comeęando do zero. Ern outras pulavras, a estimali- 
va de 5 programudores-anos para reescrever os procedimenlos crfticos ć urna previsdo excessivamente conservado- 
ra. Se, nu \erdade. essa recodificaęao levasse somente I programador-ano, u ru/ao entre o custo da abordagem misia 
e du abordagem da linguagem de niontagem pura resultaria em niais do que 4 para I ein favor da abordagem mista. 

Um programador quc usa urna linguagem de alto nivcl nao sc preocupa em mover bils de um lado para outra 
e as vezes consegue ter um discernimento do problemu quc perrnite melhorias reais no desempcnlio. Essa situaęao 
rurumente ocorre com programadores de linguagem de niontagem, que normalnienie estao tentando manipular ins- 
trayócs paru poupar alguns ciclos. 

I .cyuikIo tudo isso em conta, liii ainda no mfnimo quatra hoas razoes paru estudur linguagem de montagem. A 
primcira e que, como o sucesso ou o fracasso de um grunde projeto pode depender de se conseguir extrair um lator 
de melboriu de 2 ou 3 do desempenho de ulguns procedimenlos crfticos. i iinportunte poder escrever um bom códi- 
go de linguagem de montagem quando for realnienie necessario. 

A segund.i e que fis vezes o eódigo de montagem ć a ónica ultcmutiva dcvido a escassez de meniória. Curtóes 
inteligentcs coni£m urna CPU, mus poucos tfim um megubyte de memória, e um mimero tnenor ainda leni um 
disco rfgido pura paginar u memória. Ainda assim eles ifim de efetuar complexos calculos criptogrdficos com 
recursos limitados. Processadores embutidos em cletrodomćsticos cosluinam ter unia memória mfniniu por 
tazóes de custo. Agcndas digitais (PDAs) e outras equipamenlos elelrflnicos sem llo acionados por bateria cos- 
tunium ter meniórius pequenas para conservar a energia da bateria, portunto, tambeni nesse caso. códigos peque- 
nos e elicientes sfio unia necessidude. 


rabata 7.1 Comparaęao entre programaęao em linguagem de montagem e 
linguagem de alto nivel, com ajuste e sem ajuste. 



Programadores-anos para 

1 produzir o programa 

i Tompo de esecuęao do 1 
1 programa em segundos | 

Luiguagem de montagem 

30 


33 

Unguagem de alto nivel 

10 


JOO 

Abordagem misia antes do ajuste 

10% crfticos 

1 


90 

Outros 90% 

9 


10 

Itnal 

10 


100 


Abordagem mista após o ajuste 


10% critlcos 

6 

30 

Outros 90% 

9 

10 


Tb tal 


40 
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A lerceira ć que urn compilador deve ou produzir safda usada por um assembler ou ele mesmo e\ecutar o pro- 
cesso de montagem. Assim, entender linguagetn de montagem 6 essencial para entender como compiladores lun 
cionarn. E, afinal de contas, algućni lem de escrever o compilador (e scu assembler). 

Por fim, estudar linguagem de montagem expóe a mtkpiina real i) vista. Para estudantes de arquitetura de com¬ 
putadores, esciever um pouco de código de montagem e a unita maneira dc ter unia idćiu de como realnienie sao 
as mdquittas no nfvel da arquitetura. 

7.1.3 Formato de urna decłaraęao em linguagem de montagem 

Emitora a estrutura cle urna declaraęiio cm linguagem de montagem seja muito parecida com n eslnilura da ins- 
Iruęao de móquina que ela reprcsenta, linguagens de montagem para mśquinas di fe rent es e nfveis diferentes s2o 
sullcientemente pareeidas umas com as outras para permitir unia discussflo de linguagem de montagem cm geral. 
A Figura 7.1 mostra fragmentos de programas cm linguagem dc montagem para o Pentium 4, o Motorola 680x0 e 
a (Ultra)SPARC para efetuar o cślculo N = I + J. lim todos os tres exemplos as declaraęóes acima da linha em 
branco cfeluam o calculo. As declaraęóes abaixo da linha cm branco sao comandos para o assembler reservar 
memória para as variaveis I.JcNe n&o siło representaęóes simbólicas de inslruęóes de maquina. 

Existem vdrios assemblers para a familia Intel, eada um com urna sintaxe diferente. Neste capftulo usaremos 
a linguagem de montagem Microsoft MASM para nossos exemplos. Embora estejamos focalizando o Pentium 4, 
tudo o que tivermos a dizer se aplica igualmente hem ao 386, 486, Pentium e Pentium Pro. No caso da SPARC, 
vamos basear nossos exeniplos no assembler da Sun. Tambćm nesse caso, tudo o que dissermos se aplica Hs primei- 
ras versóes (de 32 bils) da SPARC. Por qucstao dc unifonnidade usaremos sempre maiiisculas para opcodes e regis- 
tradores (convenęao do Pentium 4), ainda que o assembler da Sun espere minusculas. 

Declaraęóes em linguagem de montagem tein quatro partes: um campo de etiqueta, um campo dc operaęSo 
(opcode), um campo de operandos e um campo de coment&rios. Etiquetas, que sao usadas para dar nomes simbóli- 
eos para endereęos de memória, sao necessarias cm declaraęóes executśveis de modo a possibilitar desvios para 
essas declaraęóes. Tambern sao necessarias para palavras de dados para permitir que os dados ali armazenados 
sejam acesslveis por nomes simbólicos. Se urna decłaraęao tiver etiqueta, esta (usualmente) comeęa na coluna I. 

Cada urna das tres partes da Figura 7.1 tern quatro ctiquctas: FORMULA, /, J e N. Notę que as linguagens de 
montagem SPARC requerem um dois-pontos após cada etiqueta, mas a da Motorola nao. A linguagem da Intel requer 
dois-pontos em eliquetas de código, mas nao em etiquctas de dados. NHo ha nada dc fundamental nessa diferenęa. 
Os projelistas dc diferentes assemblers costuinam ter gostos diferentes. Nada na arquilelura subjacentc sugere a pre¬ 
ferencja por unia ou outrn notaęiio. Urna vanlagem da notaęHo com dois-pontos ć que. com ela. urna eliqucla pode 
aparecer sozinha em urna linha, com o opcode na coluna I da linha seguinte. Esse estilo iis vezes 6 conveniente para 
compiladores. Sem os dois-pontos, nao haveria nenlium liiodo de diferenciar urna etiqucta sozinha em urna linha de 
um opcode lambćm so/inho cm urna linha. Os dois-pontos climinam cssa ambigUidade potenciaL 

Etl guete Opcode Operandos Comentarios 

FORMULA: MOV EAX.I ; reglslrador EAX = I 

ADO EAX,J : registrador EAX • I + J 

MOV N,EAX ; N = I ¥ J 

I DD 3 : reserve 4 bytes com valor (nlcial 3 

J DD 4 ; teserve 4 bytes com velor Inlda! 4 

N DD 0 ; teserve 4 byles com valor inldal 0 

(a) 

Comentarios 
; registrador DO = I 
; regislrndor DO = I + J 
; N = I + J 

; reserve 4 bytes com valor (nlcial 3 
; reserve 4 bytes com valor Inldal 4 
: reserye 4 bytes com valor Inicial 0 

(b) 


Etlqueta 

FORMULA 


i reserve 4 byles com uiilor inldal 3 

I resertre 4 bytes com v«lor inldal 4 

I reserve 4 bytes com wilor Inldal 0 


Opcode Operandos Comentarios 

SETHI %HI(I),%R1 I R1 = blts de ordom sita do endoreęo de I 

LD [%R 1 +%LO(l)|,%R t I R1 = I 

SETHI %HI(J),%R2 i R2 = blts de ordem alta do endereęo de J 

LO (%R2 »%LO(J)],%R2 I R2 = J 

NOP I espere'J chegar da momórla 

ADD %R1 ,%R2.%R2 I R2 = R1 + R2 

SETHI %HI(N),%R1 I R1 = blts de ordem alta do endereęo de N 

ST %R2.I%R1 +%LO(N)] 


Etlqueta Opcode Operandos 

FOHMULA MOVE.I, I. DO 

ADD L J. DO 

MOVE.L DO, N 

Finurn 7.1 

I DCL 3 

Calculo de N = I + /. j p C L 4 

(a) Pentium 4. (b) Motorola ^ PC l o 

680x0. (c) SPARC_ 


WORD 3 
WORD 4 
WORDO 


(C) 




Lina caracterfsticu dcsustrusa dc alguns assemblers ć que cliquetas estao reslrilas a seis nu oilo caracleres. Por 
comparuęao. a rnaiuria Jas linguagens de allo nivel pennile a utilizaęao de nomes de comprimento arbilrario. 
Nomes longos. l>cm cscolhidos, facililam muilo mais a leitura e a compreensao dos progrumus por ouiras pessoas. 

Cada unia das indquinus (cm alguns registradores, mas elcs rcceberam nomes muilo difcrentes. Os registrado- 
rcs do Pentium 4 tem nomes como EAX, EBX, ECX c assim por dianie. Os registradores du Motorola sao denomina- 
dos DO, Dl, D2. enlrc ouiros. Os registradores da SPARC' tem vdrios nomes. Aqui, usainos %R1 e %R2 para eles. 

O eainpo de opcode contćfll ou urna abreviatura simbólicu para o opcodc — se a deeluraęao for urna represen- 
taęóo simbólicu para urna instruęao de maquinu — ou urn eomando pura o próprio asscmbler. A escolha de um nome 
adequado e apenas unia qucslao de gosto e difcrentes projetislas de linguagem de montagem muilas vezes fa/em 
eseolhas diferentes. Os projetislas do assemhler da Intel deeidiram usar MOV tanio pura carregar o registrador a par- 
lir da memória quanio para armazenar um registrador na memória. Os projetislas do asscmbler du Motorola escolhe- 
ram MOVE para ambas as operaęócs. Por cumparaęiio, os projetislas do asscmbler da SPARC deeidiram usar LD para 
u primciru e ST para a ultima. Tambćm ncssc caso, as cscolhus nada tem a ver com a maquinu subjaeente. 

Ao contrario. a neeessidade de usar duas inslruędes de nińquina, comeęando com SETHI, para acessar memó- 
riu, ć unia propriedade inerente du urquitetura SPARC porque endereęos virtuais tem 32 bits (SPARC Version 8) ou 
44 bits (SPARC Version 9), e as inslruędes podem conter no rndximo 22 bits de dados imediatos. Assim, sempre (5 
preeiso duas inslruędes para fornecer lodos os bits de um endereęo virlual completo. A tarcia de 

SETHI %HI(l),%R1 

e zerar os 32 bits superiores e os 10 bits inferiores do registrador R1 (de 64 bits) e entao colocar os 22 bits superio- 
rcs do endereęo de 32 bits dc / nas posiędcs de bils 10 u 31 de R1. A instruęao seguinle, 

LD [%R1+%LO(i)|,%R1 

Mima R1 com os 10 bits de ordem baixa do endereęo de / para formar o endereęo completo de /, busea aquela pala- 
vra na memória e u coloca etn R1. Se fosse um concurso de beleza, cm urna escala de lali) essas inslruędes ganiui- 
riam cerca de 20, mas a SPARC n&o foi projetada pela beleza de sua linguagem de montagem. Ela foi projetada 
paru altu veloeidude de cxecuę<Lo e eumpre hem essa meta. 

A familia Pentium, o 680x0 e u SPARC perinitem operandos com lamanbos de bytes, palavras e longos. Como 
o asscmbler sabe quc comprimento usar? Mais urna vez, os projetislas de assemblers escolherum soluędes diferen¬ 
tes. No Pentium 4, registradores de tamanhos diferentes tćm nomes diferentes, portanlo EAX e usado pura mover 
itens de 32 bits. AX ć usudo pura movcr itens dc 16 bits e AL e AH sao usados para mnver itens de 8 bits. Por coin- 
paraęao. os projetislas do asscmbler da Motorola deeidiram acrescenłar a cada opcodc um sufixo / para longo, .IV 
para pa!avrn ou .li para byle, em vez de dar nomes difcrentes a subconjuntos de DO etc. A SPARC usa opcodes dife¬ 
rentes para comprimentos diferentes (por exemplo, LDSB, LDSH e LDSW para carregar bytes com sinal, meias-pala- 
vrus c palavras em um registrador de 64 bils. respeclivamcnte). Todos os lies modus sao vńlidos, porćm, mais urna 
vez, indicum clarumente a natureza urbitrariu do projeto de linguagem. 

Os trfis assemblers tambćm s9o diferentes no modo como reservam espaęo paru dados. Os projetislas da lin- 
guugem de montagem ilu Intel cscolhcruin DD (Dctinc Double), urna vez que a paluvra no 8088 tinha 16 bits. Os da 
Motorola gustaram ile DC (Define Constant). O pessoal du SPARC preferiu WORD desdc o infcio. Mais urna vez, 
as dilerenęas sao arbitrarius. 

(3 campo de operandos dc urna declaraęao em linguagem de montagem ć usado pura especilicur os endereęos 
e registradores usados como o|>erandos pela instruęao de mdquinu. O campo de operandos de urna instruęao de adi- 
ęio de inteiros iuforma o que serii soinado a quć. O campo de operandos de urna instruęiio ile desvio inlbnna para 
mule desviar. Operandos podem ser registradores, constantcs, localizaęóes de memória e assim por diante. 

O campo de coinentiirias olerece um lugar onde os programadores podem colocar cxplicaęóes uteis sobre o 
funcionamento do programu para o beneficio de outros programadores que possani querer usar ou modilicar o pro- 
grama niais tanie (ou pura o beneficio do programador original um ano depois). l)m programu em linguagem de 
montagem sem essa documentaęiSo e quase incomprcensivel para todos os programadores, entre eles muitas vezes 
tambćm o seu autor O campo de comenuirios ć exclusivaniente para consumo dc seres humanos; nao tem nenhum 
efeilo sobre o processo de montagem nem sobre o programu gerado. 


7.1.4 Pseudo-instruęóes 

Alem de cspecificur quais instruęóes dc mdquinu cxecutar, um programu em linguagem de montagem tambćm 
pode conter comundos para o próprio assembler, por exempiu, |)edir que ele uloquc algum amiazenanienlo ou ejete 
urna nova pagma nu listagem. Comundos paru o próprio assembler sdo denominados pseudo-instruęóes ou, ve/.es, 
direthas de assembler. Ja vimos urna pscudo-instruęao tipica na Figura 7.1(a): DW. Algunius outras pseudo-instru- 
ęoes estJo relacionadas nu Tabelu 7.2. Elus forum liradas do assembler Microsoft MASM pura a familia Intel. 

A pseudo--instruęao SEGMENT inicia um novo segmentu e ENDS encerra um segmento. h permitido iniciar um 
segmentu de texto, com código, entao iniciar um segmento de dados e, em seguida, voltar uo segmento de texlo e 
assim por diante. 

ALIGN impóc a próxima linhu usualmenle dados, um endereęo que e um nuiltiplo de seu argumento. Forexem- 
plo, se o segmentu conente jć tiver 61 bytes de dados, entao, após ALIGN 4, o próximo endereęo alocado sera 64. 

EQU e usada paru dar um nome simbólico a urna exprcssao. Por exemplo, após u pscudo-instmęao 


BASE EGU 1000 
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o sfmbolo BASE pode ser usado em todos os lugaies no lugar de l(KX). A exprcss3o qne vcm depois de EQU pode 
envolver vdrios sfmbolos definidos combinados com operadores aritinćticos e outros, como, por cxemplo. em 

LIMIT EQU 4 * BASE r 2000 

Grandę parte dos assemblcrs. incluindo o MASM, requercm que urn sfmbolo seja deftnido antes de ser usado 
cm urna exprcss3o como essa. 

As quatro pseudo-instnięSes seguintes. DB, DW. DD c DQ. alocatn armazenamento para urna ou mais vnridvcis 
de tamanhos. I. 2,4 ou 8 bytes, respectivamenle. Por exemplo, 

TABLE DB 11,23, 49 

aloca espaęo para 3 bytes c os inicializa com 11, 23 c 49, rcspeclivamente. Tambem define o sfmbolo TABU: e o 
ajusta com o cndcrcęo onde 11 ć armazenado. 

As pseudo-instmęócs PROC e ENDP definem o infcio e o finał de procedimelitos de linguagem de monlageni, 
respectivamenle. Procedimelitos em linguagem de monlageni tem a mesma funęilo que procedimenlos em oulras 
linguagens de programaęSo. Dc modo semelhante, MACRO e ENDM delimitam o cscopo de uma defmięńo dc macru. 
Estudaretnos macros mais adiante neste capftulo. 

As duas pscudo-inslruę6es seguintes, PUBLIC e EXTERN, conlrolam a visibilidade de sfmbolos. Ć comum 
escrever programas como urn conjunto de arquivos. Muitas vczes urn procedimcnlo que eslfł em urn arquivo preci- 
sa chamar um procedimento ou acessar uma palavru de dados definida em urn outro arquivo. Para possibilitar essas 
referfincias cmzadas entre arquivos. um sfmbolo que devc ficar disponfvel para outros arquivos e esportado usando 
PUBLIC. De modo semelhante, para evitar quc o assembler se queixc da uliliznęao de um sfmbolo quc nSo estd defi 
nido no arquivo correntc, o sfmbolo pode ser declarado como EXTERN, o que informa ao assembler quc cle serd 
definido cm algum mitro arquivo. Sfmbolos que mlo s3o dcclarados cm nenhunui dessas pseudo-instruyOcs Ićm 
como escopo o arquivo local. Esse padrao ( default ) significa que usar, por cxemplo. FOO em miiltiplos arquivos 
mlo gera um conflilo porque cada definiędo ć local a scu próprio arquivo. 


Tobola 7.2 



SEGMENT 


ENDS 

A1.IGN 

EQU 

DB 

DW 

DD 

DQ 

PROC 

ENDP 

MACRO 

ENDM 

PUBLIC 

EXTERN 

1NCLUDE 

IF 

ELSE 

ENDIF 

COMMENT 

PAGE 

END 


Algumas das pseudo-instruędes disponiveis no assembler do Pentium 4 (MASM). 


truęao Signilicado 


Inicie um novo segmento (texto. dados etc.) com certos atributos 
Encene o segmento corrente 

Controle o alinhamento da próxima instruędo ou dados 
Defina um novo sfmbolo igual a uma expressao dada 
Aloąue armazenamento para um Ou mais bytes |inicializados| 

Aloque armazenamento para um ou mais itens de dados |palavras) de IB bits 
(tniciatizados) 

Aloque armazenamento para um ou mais itens de dados (duplos) de 32 bits 
(inicializadosl 

Aloque armazenamento para um ou mais itens de dados |quAdruplos) de 64 bits 
(inicializadosl 

Inicie um procedimento 

Encerre um procedimento 

Inicie uma definiędo de macro 

Encene uma definiędo de macro 

Exporte um nome definido neste módulo 

Importe um nome definido de outro módulo 

Busque e inclua um outro arquivo 

Inicie montagem condicional baseada em uma expressio dada 

Inicie montagem condicional se a condiędo IF acima for falsa 

Tbrmine montagem condicional 

Defina um novo caractere de inicio de comentario 

Gere uma quebra de pagtna na listagem 

Termine o programa de montagem 



A pseudo-instruęao INCLUDE (a/ cum que u asscmhlcr busquc um nutm arquivo e u inclua no corpo do anjui- 
vo corrente. Esses urquivos incluidos frequentemente contem definięfies, macros e outros iicns necessarios em nuil 
liplos arquivos. 

Muitos assemblers, incluindo o MASM, suportam montagem condicional. Por exemplo, 

WOHDSIZE EQU 16 

IF WORDSIZE GT 16 

WSIZE: DD 32 

ELSE 

WSIZE: DD 16 

ENDIF 

uloca urna linica paluvra de 12 bits c chama seu cndcrcęo WSIZE. A palavra e inicializadu com 32 ou 16, dependen- 
do do valor dc WOHDSIZE, ncssc caso, 16. Normalnienie essa construęao seria usada paru escrcvcr um progruma 
quc poderia ser moniado em nukjuinus dc 16 bils (como 0 8088) ou em miiquinas de 32 bils (como o Pcniium 4). 
Por ubrunger lodo o código dependente de maquinu em IF c ENDIF. e entao mudar unia linica definięao, WORDSI¬ 
ZE, o programu pode ser ujusludo aulomalicamenle para moniai pani qualquer um dos duis tamunhos. Usando essa 
abordagem, e poss(vel manier um unico programa-fonie paru vdrias mdquinas-alvo (diferenles), o que facilita o 
desenvol\ imenio c a manulenęSo dc software. F.m muilos casus, lodus as defmięfles dcpendcnles dc mdquinu, como 
WORDSIZE. sao reumdas em um unico arquivo, com vers6es diferenles para m igui n as diferenles. Incluindo o 
arquivo de defmięócs correto, o programu pode ser recompiludo com facilidade para mdquinus diferenles. 

A pseudo-instruędo COMMENT permile que o usuario alicie o dclimilador de comenldrio para algo diferenle 
ile pouto-e-sirgula. PAGE ć usada para controlar a listagein quc o assembler pode produzir. se requisitado. Por firn, 
END marca o fmal do programu. 

Existem muitas oulrus pscudo-instruęóes em MASM. Outros assemblers Pentium 4 tern um conjunto diferen¬ 
le dc pseudo-instruędes disponiveis porque elas nao sao ditadas peta arquitelura subjacenle, mas pelo goslo do escri- 
lor do assembler. 


7.2 Macros 

Programadores de linguagem de montagem freq(lentemcnte precisam repetir seqiidncius de instruęiies varias 
vezes deutru de um programu. O modo mais óbvio de fa/er isso e simplesmenle escrever as inslruęftes requeridas 
onde quer que sejam necessdrius. Se urna seqiiencia for longa. entretanto, ou tiver de ser usada muilas vezes, escre- 
ve-la repetrdas ve/.c-. tnrnu-sc ledioso. 

Urna abordagem allemaliva e transformar a seqileneia em um procedimento e chamd-la sempre que necessa- 
rio. Essa estrategia tein a dcsvuntagem de requerer urna instruędo de chamada de procedimento e unia instruędo de 
retomo a ser executada lodu vez que urna seqiiencia for necessaria. Se as seqtiencias forem curtas — por exemplo, 
duas instruęoes mas usadus com frequencia, a sohrecarga da chamada de procedimento pode reduzir significuti- 
vamente a velocidade do programu. Macros proporcionam urna soluęao fdcil e eficientc para o problemu de preei- 
sar repetidas vezes das mesmas, ou de quase as mesmas, seqiićncias de instruęńes. 

7.2.1 Definięao, chamada e expansao de macro 

Urna definięao de macro e um modo de dar um nonie u um pedaęo de texlo. Apńs unia macro ser definida, o 
progranuidor pode escrcver o nonie da macro em vez do pedaęo de programu. Urna macro 6, na verdade, urna abre- 
vialura para um pedaęo de texto. A Figura 7.2(a) mostra um programa em linguagem dc monlagem para o Pentium 
4 que troca o conteudo das vartdveis p e q duas vezes. Essus seq(12ncias poderiam ser descritus como macros, como 
mostra a Figura 7.2(b). Após sua definięao, toda vez que ocorrer SWAP, ela serd substilufda pelas quatro linhas: 

MOV EAX,P 

MOV EBX,Q 

MOV Q,EAX 

MOV P.EBX 

O programadoi definiu SWAP como unia ahrevialura para as qualro declaraęftes mostradas anteriormcntc. 


Fluoru 7.2 

Código de linguagem de 
monlagem para trocar P e Q 
duas vezes (a) Sem urna 
macro. |b) Com urna macro. 


MOV 

EAX,P 

SWAP MACRO 

MOV 

EBX,Q 

MOV EAX,P 

MOV 

Q.EAX 

MOV EBX,Q 

MOV 

P,EBX 

MOV Q,EAX 
MOV P,EBX 

MOV 

EAX,P 

ENDM 

MOV 

EBX,Q 


MOV 

Q,EAX 

SWAP 

MOV 

P.EBX 

SWAP 


(a) 

(b) 
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Taheia 7.3 Comparaęao entre chamadas de macro e chamadas de procedimento. 


1 Item 

Cha 

mada de macro | Chamada de procedimento 1 

Ouando a chamada e feita? 

Durante montagem 

Durante execuęao do programa 

0 corpo e inserido no progTaina-objeto em todos os 
lugares em que a chamada 6 feita? 

Sim 


N8o 

Uma instruęSo de chamada de procedimento e 
inserida no programa-objeto e executada mais tarde? 

Nao 


Sim 

Deve ser usada uma instmęao de retorno após a 
conclusao da chamada? 

N3o 


Sim 

Ouantas cópias do corpo aparecem no programa- 
objeto? 

Uma por chamada 
de macro 

Uma 


Emboia assemblers diferentes tenham nolaęóes ligeiramente diferenles para definir macrns, todos requerem as 
mesmas partes bdsicas cm uma dcfinięao dc macro: 

1. Urn cabeęalho dc macro que d6 o nonie da macro que estd sendo definidn. 

2 . O texto que abrange o eorpo da macro. 

3. Uma pseudo-inslruęiio quc marca o finał da definięao (por exemplo, ENDM). 

Quando o asscmblcr encontra uma dcfinięao de macro, cle a snlva em uma tabela de definięao de macros para 
uso subseqiiente. Desse ponto em diante, semprc que o nonie da macro (SWAP no exemp1o da Figura 7.2) aparecer 
como urn opcode, o assemblcr a substitui pelo corpo da macro. A ulilizaęilo de urn nonie de macro como urn opco 
de 6 conhecida como chamada de macro e sua subsliluięao pelo corpo da macro ć denominada expansao de macro. 

A cxpans3o de macro ocorre durantc o processo de montagein e n5o durante a execuętio do programa. Esse 
ponto 6 importanle. O programa da Figura 7.2(a) e o da Figura 7.2(b) produzirSo cxalamcntc o mesmo código de 
linguagern de mśquina. Examinando apenas o programa em linguagem de mdquina, ć impossfvel dizer se houve ou 
nao houve macros envolvidax em sua geraę3o. A razao 6 que, t5o logo a expansSo de macro tenha sido condufda. 
as definięóes de macro sao descartadas pelo assembler. Nao resta nenhum vestfgio delas no programa gerado. 

Chamadas de macro n3o devetn ser confundidas com chamadas de procedimento. A diferenęa bisica ć que 
urna chamada de macro ć uma instmęao para o assembler substituir o nonie da macro pelo corpo da macro. Uma 
chamada de procedimento ć uma instruęao de maquina que e inserida no programa-objeio e que mais tarile ser.1 exe- 
cutada para chamar o procedimento. A Tabela 7.3 compara chamadas de macro com chamadas de procedimento. 

Em termos coneeituais, e melhor imaginar a realizaęao do processo de montagem em duas etapas. Na elapn 
um, todas as definięóes de macro sao salvas e as chamadas de macro sao expandidas. Na etapa dois. o texto resul- 
tante e proccssado como se eslivesse no programa original. Scgundo essa vis3o. o programa fonie e lido e entao 
transformado cm um outro programa do cpial todas as definięóes de macro foram remm idas e no qua! todas as cha¬ 
madas de macro foram substitufdas pelos seus corpos. A safda resultante, um programa eni linguagem de inonta 
gem que nito contćm nenlnnna macro. 6 entao alimentada no assembler. 

E importantc ter em mente que um programa 6 uma cadeia de caracteres que inclui letras, dfgitos. cspaęos, 
sinais dc pontuaęilo c retomos ao infcio da linha (passar para uina nova linha). F.xpansao dc macro consiste em subs- 
tituir certas sulKadeias dessa cadeia por outras cadcias de caracteres. Um processador de macros 6 uma tecnica para 
manipular cadcias de caracteres sem considerar seu significado. 


7.2.2 Macros com parametros 

O processador de macros que acabamos dc descrcver pode ser usado para encurlar programas nos quais exa- 
tamenle a mesma seqii6ncia dc instruęóes ocorre repetidas vezes. Contuclo. muitas vezes um programa contćm 
diversas seqiićncias de instruęóes que sao quase. mas nao tolalmente. identicas, como ilustmdo na Figura 7.3(a). 
Aqui, a priineira scqiićncia permuta P e (J e a segunda seqiiencia permuta R e S. 



MOV 

EAX.P 

CHANGE MACRO PI, P2 


MOV 

EBX,Q 

MOV EAX,P1 


MOV 

0,EAX 

MOV EBX,P2 

Flnura 7.3 

MOV 

P.EBX 

MOV P2.EAX 
MOVP1,ERX 

Seąuencias de declaraęóes 

MOV 

EAX,R 

ENDM 

quase identteas. (a) Sem uma 

MOV 

EBX.S 


macro. (b) Com uma macro. 

MOV 

MOV 

S,EAX 

R,EBX 

(a) 

CHANGE P, G 

„ CHANGE R.S 

(b) 



Monladores dc macros tratani o caso de seqiiencia.s praiicaniente idćnticas permilindo que defmięoes de macro 
fomeęam parftmetros fonnuis e permilindo que chamadas de macro fomeęam parametrom reais. Quando urna 
macro ć cxpandida, cada parAmctro formal que aparece no corpo da macro ć substitufdo pelo parametro tval corres- 
pondentc. Os paraniciros reais sao colocados no campo de operando da chamada de macro. A Figura 7.3(h) inostra 
o programu da Figura 7.3(u) recscrilo usando urna macro cum dois parametios Om sfmboios PI e P2 sao os parame¬ 
trom Ibrmuis Cada ucorrencia dc /*/ dcntro de uin corpo de macro e suhstituida pelo primciro parAmctro real quan- 
do a macro e cxpandida. De modo seinelhanle, P2 i suhstiiuido pelo scguudo parametro real. Na chamada de macro 

CHANGE P, Q 

P e o primciro parAmctro real e Q ć o segundo parAmctro real. Assim, os programas executaveis produzidos por amhus 
as partem da Figura 7.3 sao identicos. Eles contem exatamenle as mestnus instruęócs coin os mcsinos operundos. 

7.2.3 Caracteristicas avanęadas 

A mai oda dos processadores de macros tern urna grandę quantidade de caracteristicas avunęadas para faciiitar 
a vida do progrumudor dc iingiiugcm de montagem. Nesta seęao vamos examinar algumus das caracteristicas avan- 
ęadas do MASM. I iii problema que ocorre com todos os assembiers ipic suporlam macros ć a duplicaęao de rótu- 
los. Suponlia que u mu macro contenha urna instruęAo de desvio condicional e urn rótulo para o qual ela desvia. Se 
a macro 6 chamada duas ou mais ve/.es, o rótulo sera duplicado, o quc causa urn erro de nionlagcm. Urna soluęAo 
e la/er com que o programador fomeęa urn rótulo diferente cm cada chamada, como um parAmetro. Urna soluęao 
diferente (usada pelo MASM) Ł pennitir que um rótulo seja declarado LOCAL e que o assemhlcr gere automatica 
menie um rótulo diterente a cada expansao da macro. Alguns outros assembiers tem urna regra que inipóe que rólu- 
los numencos sao automaticamenie locais. 

MASM e grandę parte do outros assembiers permitem que macros sejam defmidas dentro de oulras macros. 
Essa caracteristicu c muito mil cm combinaęao com montagem condicional. Normalnienie a mesma macro ć dcli 
nida cm umbus as partes dc urna declaraęao IF, assim: 

Ml MACRO 

IF WORDSlZE GT 16 

M2 MACRO 

ENDM 

ELSE 

M2 MACRO 

ENDM 

ENDIF 

ENDM 

L)e quulqucr modo, a macro M2 sera detinida, mas a detlnięao dependera de o programa ser montado em unia 
mAquina de 16 bits ou em unia mAquina de 32 bits. Se Ml nao for chamada, M2 nao sera detinida de modo ałgiim. 

For lim, macros podcm chamar outras macros, iucluindo elas mesmas. Se urna macro for rccursiva, isto ć. cha- 
mar a si mesma, cla deve passar para si mesma um parAnietro que e trocado a cada expansao, e a macro deve testar 
o parAmctro e encerrar a rccursAo ipiando alcanęar um certo valor. Caso contrArio, o assembler pode ser colocado 
cm um laęo inlinito. Se isso acontecer, o assembler deve ser terminado cxplicitamente pelo usuario. 

7.2.4 Implementaęao de um processador de macros 
em um assembler 

Fara implcmcntar um processador de macros, um assembler deve ser capaz de reulizar duas funęóes: salvar 
dctinięóes de macro e cxpandir chamadas de macro. Vamos examinar essas duas funęóes, unia por vez. 

O assembler dcve manier urna tabela com todos os nomes dc macros e, junto com cada nonie, um ponteiro 
para sua defmięAo aniiazcnudu*de modo que ela possa ser recuperada qiiando neeessario. 

Alguns assembiers tem urna tabela separuda para nomes de macros e alguns tern urna tabela de opcodes com- 
binados nu qual sao manlidas lodas as instruęócs de ntaquina, pseudo-instnięócs c nomes de macro. 

Quundo umu dcfiiiięAo de macro ć encontrudu, ć criada unia entrada da tubela quc contćni o nonie da macro, 
o mii nero de parfimetros fonnais e um ponteiro para uina outra tabela — u tabela de dcfinię-Ao dc macros otulę 
o corpo da macro sera muntido. Nessc mesino momentu tumhem e eonslruidu unia lista ilos purAmetros foriuais para 
utilizuęAo no processamento da detlnięao. Entao, o corpo da macro ć lido e arinazenado na tabela ile dcfinięAo de 
macros. ParAmctro* formais que ocorrem dentro do corpo sao indicados por algum simbolo cspcciul. Como exem- 
plo, a represcniaęAo mierna da delinięAo de macro de CHANGE na quul o ponto-e-virgulu representa “retomo ao 
iltfcio da próxima e linha" c & ć o simbolo de parAmctro fłirmal ć mostrada a seguir: 

MOV EAX,&P1 MOV EBX,&P2; MOV &P2,EAX; MOV &P1,EBX; 

Dentro da tabela dc defmięAo de inucros, o corpo da macro e simplcsmente unia cadcia de caraclercs. 

Durantc u ciupa um da montagem. opcodes sAo consultados e macros sAo cxpandidas. Setupie que unia defini- 
ęao de macro for encontrada. ela i armazenadu na tabela de macros. Quando urna macro e chamada, o assembler paru 
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lemporariamcnie de Icr entradas do dispositivo de enlrada e. em lugar disso, comeęa a ler do eorpo armazcnado da 
maero. Parametru* formais exlrafdos do corpo armuzenado da macro sao substitufdos pclos parametru* reais forne- 
cidos na chamada. A prcscnęa do & na frentc dos paramclros formais facilita seu reconbecimento pelo assembler. 

7.3 0 processo de montagem 

Nas seęóes seguintes vamos descrever rcsumidamcnlc como um assembler funeiona. hmbora cada tn;fquina 
lenha unia linguagem de montagem diferente. o processo de montagem ć semelhantc o suficientc para cpie possa- 
mos descrevó-lo em termos gerais. 

7.3.1 Assemblers de duas etapas 

Como um progrania em linguagem de montagem consistc em urna sćrie de declaraęóes de urna linha cada a 
princtpio. poderia parecer nntural ter um assembler quc lesse uma declaraęao. em seguida a (raduzisse para lingua 
gem de maquina c, por fint, passasse a linguagem de mdquina gerada para um arquivo c. ho inesnio tempo, passas 
se a poręao correspoudente da listagem, sc houvcsse algunta, para outro arquivo. EntSo esse processo seria repeti- 
do ate que todo o progrania fosse transferido. Infelizmente, essa estrategia nflo funeiona. 

Considere u situaęiki em que a primeira declaraęao seja um desvio para /.. O assembler niio pode montnr essa 
declaraęao antes dc saber o endereęo da declaraędo A dcclataęao L pode estar pokima ao finał do progrania. o 
que impossibilita ao assembler achar o endereęo sem antes ler quase o progrania inteiro. Essa (liftculdade ć deno- 
tninada prohlcma da referenda antecipada porque um sfmbolo, L foi usado antes dc ser definido, isto ć. foi lei ta 
urna rcfcrdncia a um sfmbolo cuja definięao só ocorrerii inais tarde. 

Referćncias antecipndas pudem ser tratadas de duas nianeiras. Na primeira. o assembler pode, de fato. ler o 
programa-fonte duas vezes. Cada leitura do programa-fonte e denominada passagent; qualquer tradutor que leia o 
progrania de entrada duas vezes e denominado (radulor de duas passagens. Na ctapa um de um assembler dc duas 
passagens, as definięócs de sfmbolos, incluindo rótulos de declaraęóes. sao colctadas e armazenadas em urna tabe¬ 
la. Quando a etapu dois comeęa, os valores dc todos os sfmbolos sao conhecidos; assim, niio resta nenhuma refc 
rencia antecipada e cada declaraęao pode ser lida, tuontada e produzida. Ernbora essa abordagem requeirn unia pas- 
sagem cxtra pela entrada, em termos de conceito ela ć simples. 

A segunda abordagem consistc em ler o progrania de montagem urna vez. convert?-ln para urna forma inter- 
mediaria e armazenar essa forma intermediaria cm urna tabela na memória. Entao 6 feita unia segunda passagem 
sobre a tabela, em vez de sobre o programa-fonte. Sc houver memória suficientc (ou memória virtual). essa abor 
dagem poupa tempo dc E/S. Sc for preciso produzir uma listagem. entao toda a declaraęao fontc. incluindo todos 
os comcntdrios, tein de ser saka. Se ndo for preciso uma listagem, entao a forma inlcnnediaria pode ser rednzida 
ao mfnimo esscncial. 

De qualquer modo. uma outra tnrefa da passagem um ć salvnr lodas as definięóes de macro e espandir as cha- 
mndas a medidn que s5o cncnntradas. Portunto, definir os sfmbolos c expandir as macros cm geral sito combinados 
em uma tinica passagem. 

7.3.2 Passagem um 

A principal funęao da passagem um ć montar uma tabela denominada tabela de sfmbolos. que contcbn o valor 
de UhIos os sfmbolos. Um sfmbolo e um rótulo ou um valor ao qual ć alribufdo um nonie simbólico por nieio de 
uma pseudo-instruęiio lal como 

BUFSIZE EQU 8192 

Ao atribuir um valor a um sfmbolo no campo de rótulo de uma instruęao. o assembler tern de saber qual ende¬ 
reęo aquela instruęiio terd durante a execuę3o do programa. Para monitorar o endereęo de tempo de execuęilo da 
instruęao que est;i sendo montada, o assembler mantćm uma varińvel durante a montagem, conhecida como ILC 
(instruclion I.ocntion Counter — contador de loenlizaęao de instruęao). Essa varidvel ć ajustada para 0 no inf- 
cio da passagem um e incrcmentada do comprimento da instruęao para cada instruęiio processada, como mostra a 
Figura 7.4. Esse cxcmplo ć para o Pentium 4. Daqui cm dianie nao darcmos cxcmplos da SPARC (ou Motorola) 
porque as diferenętis entre as linguagens dc montagem n3o s3o muito importantes c um só excmp!o dikerd ser sufi- 
cicnte. Alćm do niais. se houvcsse um concurso para cscolher qual ć a linguagem de montagem tnenos legfvel do 
mundo. a da SPARC seria uma seria candiduta. 



Rótulo 

Opcode 

Operandos 

Comentórlos 

Comprimento 

ILC 

rigura 7.4 

MARIA: 

MOV 

EAX, 1 

EAX = 1 

5 

100 

0 contador de localizaędo de 


MOV 

EBX, J 

EBX m J 

6 

105 

instruęSo (ILC) monitora o 

ROBERTA: 

MOV 

ECX, K 

ECX = K 

fl 

111 

endereęo no ąual as 


IMUL 

EAX, EAX 

EAX = 1*1 

2 

117 

instruęóes serilo canegadas 


IMUL 

EBX, EBX 

EBX = J • J 

3 

119 

na memória. Nesse exemplo. 


IMUL 

ECX. ECX 

ECX ■= K * K 

3 

122 

as declaraęóes antes de 

MARII YN: 

ADO 

EAX EBX 

EAX o 1 • 1 + J * J 

2 

125 

MARIA ocupam 100 bytes. 


ADO 

EAX, ECX 

EAX = 1 • 1 + J ♦ J < 

(K.K ? 

127 


‘ STEPHANY: 

JMP 

DONE 

branch to DONE 

G 

129 



itibeia 7.4 Tabela de simbolos para o 
programa da Figura 7.4. 


Simbolo Valor Outras informaęóes 


A passatem urn da niaioria dos assemblers usa no nnnimo ires tahelas intemas: u tabela dc simbolos. a tabe¬ 
la de pseudo-inslruęoes e a tabela de opcodes. Sc necessario. tumbom c maniida uma tabela dc lilcrais. A tabela dc 
simbolos tem uma cutrada paru cuda simbolo. como ilustrudo na Tabela 7.4. Simbolos sao ddinidos ao sc usa-los 
como rótulos ou por definięBo cxplicita (por exemplo, EQU). Cada entradu da tabela de simbolos conlem o simbo¬ 
lo em si (ou um pontciro paru ele), seu vulor numćrico e, lis vezes, outras informaęóes. Kssas informaęóes adicio- 
nais poiłem incluir 

1. O comprimento do campo de dados assuciado com o simbolo. 

2 . Os bils de rclocaęio. (O simbolo muda de valor sc o programa Tor carrcgado em um endereęo diferentc 
daqucle prclendido pclo assembler?) 

3. Se o simbolo dcvc ser acessivcl ou nao fora do proccdimento. 

A tabela dc opcodes contćra no mininto uma entrada para cada opcode simbólico (mnemónico) na linguagem 
de montagem. A Tabela 7.5 mostra parte de uma tabela dc opcodes. Cada entrada contem o opcode simbólico, dois 
operandos, o valor numerico do opcode, o comprimento da instruęiio, e um numero de lipo que separa os opcodes 
em grupos que dependent da quantidudc e do tipo de operandos. 

CiNno exeniplo. considcre o opcode ADD. Sc uma instruęao ADD contiver EAX como o printeiro operando e 
uma conslanic de 32 bits (immed32) como o segundo, entao e usado o opcode 0x05 e o comprimento da instruęiin 
6 5 bytes. (Constantes quc poiłem ser expressas em 8 ou 16 bits usant opcodes diferentes. nao mostrados.) Se ADD 
for usuda com dois registradores como operandos, u instruęao tem 2 bytes, com opcode 0x01. A classe de instruęiio 
(arbitriiria) 19 seria dada u todas as combinaęóes opcode-operundo que seguissem as mesrnas regras e devessent ser 
processados do mesuio modo que ADD com dois operandos de registradores. A classe da instruęao designa efetiva- 
mente um proccdimento dentro do assembler que e chantado para processar todas as instruęóes de um dado lipo. 

Alguns assemblers permitem que os programadores escrevam instruęóes usando cndereęamento imediato, 
ainda que nao exista nenhuma instruęiio correspondente na linguagem-alvo. Essas instruęóes ‘pseudo-imediatas’ siło 
manipuladas como segue. C) assembler aloca memóriu para o operando imediato no finał do programu e gera uma 
instruęao que o referenda. Por exemplo, o mainfrante IBM 3090 n9o tem instruęóes imediatus. Nao obstanie, pro¬ 
gramadores podent escrever 


para carregar o registrador 14 com unia conslante de paluvra inteira de valor 5. Dessc modo, o programador evita 
escrever explicitamcntc uma pseudo-instruęao para alocar uma palavra com valor 5, dando-lhe um rótulo, e entao 
usar esse rótulo na instruęao L. Constantes para as quuis o assembler rescrva meinória automaticamente sao denn- 
minadas lilcrais Alćm de poupar alguma escrita ao programador. as literais melhorum a legibilidade de um progra¬ 
mu tomando o valor da constante apurente na declaraęiio-fonte. A passagem um do assembler deve montar uma 
tabela com todas as literais usadas no programa. Todos os nossos tres excmplos de computador tem instruęóes inte 
diatas, portanto seus assemblers nao fomecem literais. 

Instruęóes imediatus sao bem comuns boje em dia, mas antes nao erutn. I; provavel que a ampla utilizuęao de 
literais deixou ciuro paru os projetistas de móquinas que o endereęamento imediato era unia boa idćia. Se literais 

Taiieia 7.5 Alguns excertos da tabela de opcodes para um assembler Pentium 4. 
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forem ncccssśrius. uma tabela de literais ć inanlida durunte a montagein. fazendo urna tiova cntrada Kula ve/. que 
for encontrada mim literał. Após a passagem um, essa tabela ć ordenada c as entradas duplicadas siło removidas. 

A Figura 7.5 nioslra um proccdimcnto que poderia scrvir como ha.se para a passagem um de um assembler. O 
estilo de progrHtnaę&u ć digno de nota por si só. Os nomcs dc procedimentos foram escolhidos para dar uma boa 
indicaędo do que os procedimentos fazem. O mais importante e que a Figura 7.5 reprcsenla um eshoyo de passa¬ 
gem um que. embora niło seja complcto, proporciona um bom ponto de partida. Ś curto «i suficiente para ser enten- 
dido com facilidade e deixa claro qual ć a etapa seguintc — a saber. escrcver os procedimentos nele usados. 

Alguns desses procedimentos serflo rclativamenle curtos, como check_for_symlwl, que aperftts rclnma o sfm 
bolo como uma cadeia de caracteres se houver um slnibolo e nuto se nao houver. Outros procedimentos. como 
gel_length_of. lypel e gel_length_ofjype2. pndem ser mais longos e podem chamar outros procedimentos. Em 
geral. o nutnero de tipos n9o serii dois, ć claro. mas dependerś da linguagem que estii sendo montada e dc quantas 
instruęfles ela tern. 

Kstruturar progntmas dessa maneira tein outras vantagcns alem da facilidade de programaęao. Se o assemhler 
estivcr sendo cscrito por um grupo de pessoas. os varios procedimentos podem ser divididos entre os programado 
res. Todos os deialhes (detestaveis) da nbtenęao de cntrada estao ocultos em readjne.ti linę. Se eles mudarem 
por excmplo. dcvido a uma mudunęn de sistema o|ieracional —. npenas um procedimento subsidiiirio ć afetado. c 
nao hd necessidadc de alteraęóes no procedimento pass_one cm si. 

A medida que I# o programu, a passagem um tern de aualisar cuda linha para achar o opcode (por cxcmplo. 
ADD). cxaminar seu lipo (basicamcnte o padrao de operandos) e calcular o comprimento da instruędo. F.ssas infor- 
maęóes tarnbćm sao neccssiirias na passagem dois, port a lito ć possfvel cscreve-las cxpli( itamentc para climinar a 
necessidadc dc analisar a linha partindo do zero na próxima vcz. Contudo, reescrever o arquivo de entnida provoca 
a ocorr6ncia de mais E/S. Sc for melhor fa/er mais E/S para eliminar aniilise ou menos I-./S e mais andlisc depende 
das vclocidades relativas da CPU e do disco, da eficiSncia do sistema de arquivo e de outros fatores. Neste exem- 
plo vamos cscrever um arquivo tempordrio quc contćm o lipo. o opcode. o comprimento c a própria linha de enlra 
da. E essa linha que a passagem dois I? em vez da entrada bruta do arc|uivo. 

Quando a pseudo-instnięio END ć lida. a passagem um termina. A tabela de sfmbolos e as (ahelas de literais 
podem ser urdenadas nesse ponto, se necessdrio. A tabela de literais ordenada pode ser verificada em busca de entra 
das duplns, que podem ser removidas. 

public static void pass one() { 

// Esse procedimento 6 um esboęo de passagem um para um assembler simpies 
boolean morę Inpul - true; II slnal que pśra a passagem um 

String linę, symbol, literał, opcode; II campos da instruęflo 
int localion counter, length, value, type; // varińveis diyersas 
finał Int END STATEMENT » -2; II slnailza finał da entrada 

location.counter - 0; // monta a pnmeira Instruęao em 0 

initialize tables(); II iniclallzaęSo geral 

while (morę input) ( II morę" input ajustada para talso por END 

linę = road next line(); II oblenha uma linha de entrada 

length = 0; // # bytes na inslruęfto 

type ^0; //de que tipo (formalo) * a InstruęSo 

II (linę is not comment(llne)) ( 

symbol - check tor symbol(line); //essa linha 6 rotulada' 3 
il (symbol 1= nuli) // se lor. registre slmbolo e valor 

enter rtew symbol(symbol, location counter); 
literał = check for litoral(line): // a linha contńm uma llleral? 

II (literał I- nuli) * II se contiver, entre a linha na tabela 

enter newJlteral(llteral); 

// Agora determlne o tlpo de opcode -1 signiflea opcode ilega! 
opcode = extract opcode (linę), // localize mnemdnico do opcode 

type-search opcode table(opcode);//ache lormato, por exemplo OP REG1.REG2 
if (type < 0) // se nao for um opcode. 6 uma pseudo-InstruęSo? 

type » search pseudo table(opcode); 

swilch(lype) ( U determine o comprimento dessa Instruęflo 

case 1 length = get length of typet(llne): break, 
case 2: length = get length ol type2(line). break; 

// outros casos aqul 

) 

} 

wrlte temp llle(type, opcode. length, lina); // Informaęao ulil para a passagem dois 
location counter = location counter ♦ length; //atuallze loc" ctr 
if (type *= END STATEMENT) ( // lerminamos a entrada •’ 

morę inpul = false. // se lerminamos, execute tarefas de prepnro 

rewlnd temp for pass two(); II lais como reboblnar o arqulvo temporórlo 
sod literał table(); Ile ordenara tabela de literais 

remove redundant literais)); // e remover literais duplicadas 

) 

I 
ł 
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7.3.3 Passagem dois 

A funęio da passagem clois ć gerar o programa-objelo e possivelmenle impriniir a lislagem de montagem. 
Alem disso, a passagem dois deve produzir certas informaęoes de tjue o ligador necessila para ligar procedimenlos 
inontados em tempos diferentes em uin tinico arquivo executdvel. A Figura 7.6 mostra uin raseunho de um proee- 
dimenlo para passagem dois. 

A operaęao de passagem dois ć mais ou nienos semelhaiHe 3 da passagem um: ela le as linhas urna por vez e 
as proeessa. Visto que eserevemos o tipo, o opeode e o comprimenlo no infcio de cada linha (no arquivo temponi- 
rio), ludo isso e lido para poupar um poueo de analise. O trabalho principal da geraęao de eódigo e reali/ado pelos 
proceilimenfos emljypel , eval_type2 e assirn por dianie. Cada um manipula um paiirao particular, lal como um 
opeode e dois operandos de regislrador. Gera o eódigo hinario para a insiruęao, retoma-o em codę e entao ele e 
eserito. C) mais provavel ć que write outpui apenas acumule o eódigo bindrio em um buffer e esereva o arquivo no 
disco em grandes poręóes para reduzir o Iratego. 

A declaraęao-fonle original e o eódigo de objęto dela gerado, em hexadeeimal, podem entao ser impressos ou 
eoloeados em um buffer para impressao posterior. Após o II.C ser ajustado, a próxima declaraęao e buscada. 

Ate agora admilimos que o programa-fonte nao eontem nenhum erro. Qualquer um que jd tenha eserito um 
programa, em qualquer linguagem. sabe como essa suposiędo ć irreal. Alguns dos erros mais eomuns sao: 

1. lim sfmbolo foi usado, mas nao definido. 

2 . Um sfmbolo foi deliuido mais de urna vez. 

3. O nomc no campo de opeode nao e um opcode-legal. 

4. Um opeode e fomeeido com um numero insufieiente de operandos. 

s. Um opeode e fomeeido com um niimero deinasiado de operandos. 

6. Um numero octal contćm um 8 ou um 9. 

7. Ulilizaęao ilegal de registrador (por exemplo, um desvio para um registrador). 

8. A declaraęao END estii faltando. 

Programadores sao muilo engenbosos quando se trata de achar novos tipos de erros para comelcr. Erros de sfm- 
bolos nao delinidos muitas vez.es s3o eausados por erros de digitaędo, portanto um assembler esperto poderia ten- 
lar eniender qual dos sfmbolos definidos e mais parecido com o sfmbolo n5o definido e usd-lo em seu lugar. Poueo 
pode ser feito para eorrigir a maioria dos outros erros. A melhor coisa que um assembler pode fazer com urna decla- 
raędo errada ć imprimir urna inensagem de erro e tentar continuar a montagem. 
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public stalle void pass_two() ( 

i procedimentn ś um esboęo de passagem dois para um assembler simples. 


boolean morę inpul = true; 

Slring linę, opeode; 

int locatiort counter, length, type; 

linal inl END STATEMENT = -2. 

tinal inl MAX CODĘ = 16; 

byle code[ | - riew byte[MAX CODĘ); 


// sinal que para a passagem dois 

// campos da insiruęao 

II variźveis diversas 

// sinaliza linal da entrada 

// maximo de byles de eódigo por insiruęao 

II comem eódigo gerado por InstruęAo 


locatlon counler = 0; 


II monta a primeira insiruęao em 0 


while (morę input) { 
type = read type(); 
opeode - read opcode(); 
length = read_length(); 
llne »read line(); 


II mora input ajuslada para falso por END 
// obtem campo de tlpo da próxima linha 
II obtem campo de opeode da próxlma linha 
// obtóm cornprimenlo de oampo da próxlma linha 
II obtóm a linha de entrada propnamente dita 


II 


) 


(type != 0) { // tlpo 0 ó para linhas de comentórlo 

swilch(type) ( // gerar o eódigo de salda 

case 1 eval typet (opeode, length, linę. codę); quebra, 
case 2: eval type2(opcode. length, llne, codę), quebra, 

// outros casos aqui 

) 


write _output(code); // escreva o eódigo blnórlo 

write llstlng(code, llne); II tmprlma urna linha na llstagem 

locatlon counter = localion counter i length: II atuallze loc ctr 
il (type ~ END STATEMENT) ( // termlnamos a entrada? 

morę input = false; // se lerminamos, execute tarefas de manutenęao 

flnlsh up(); //avulsas 

1 

) 


7.3.4 Tabela de simbolos 

Durante a passagem um do processo de montagem. o assembler aeumula infonnaęóes sobre simbolos e seus 
valores quc devem ser armazenadas nu tabela de sfmbolos para consulta durante a passagem dois. Ha vdrios modos 
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difcrcntes disponfvcis para organizar a tabela de sfmbolos. Logo adiante descreveremos rcsumidamente alguns 
dcles. Todos eles tenlam simular unia memória nssutfaliva quc, em termos conceituais. i urn eonjunto dc pares 
sfmbolo. valor. Dado o sfmbolo, a memória associaliva deve produ/ir o valor. 

A teenica dc implcmentaęfio mais simples ć. dc lato. implenientar a tabela de sfmbolos como um arranjo de 
pares. cujo primeiro elemento d (ou aponta para) o sfmbolo e cujo scgundo elemento d (ou aponta para) o valor. 
Dado um sfmbolo para procurar, a rotina da tabela dc sfmbolos apenas pesquisa a tabela linha por linha atd achar 
um sfmbolo compatfvel. Essc mdtodo d facil de programar. pordm d lento porque, na mddia. metade da tabela terd 
de ser pcsquisada em cada consulta. 

Um mitro modo de organizar a tabela de sfmbolos d ordenar por sfmbolos e usar o algoritmo dc busea hinarla 
para procurar um sfmbolo. Esse algoritmo funcinna comparando a entrnda do ttieio da tabela com o sfmbolo. Se o 
sfmbolo vier antes da entrada do meio, em orderu allabdtica. ele devc estar localizado na primeira metadc da tabela. 
Se o sfmbolo vier após a entrada do meio. deve estar na segunda metadc da tabela. Se o sfmbolo for igual i) entrada 
do meio. a husca tennina. 

('onsiderando que a entrada do meio nao seja igual ao sfmbolo procurado. ao menos sabemos em qual mcla- 
dc da tabela procura-lo. Agora a busca binarni pode ser aplicada a metadc correta. o que resultara ou em urna com- 
patibilidnde ou no quarto correto da tabela. Utilizando aplicaęao rccursiva do algoritmo, unia tabela de n enlradas 
dc tamanhn pode ser pesquisada cm cerca de log, « tentativas. fi óbvio que essc modo ć muito mais rdpido do que 
a pesquisa lincar. mas reqtter manier a tabela ordenada. 

Um modo complctanicnte diferente de simular urna memória associativa ć urna tćcnica conhecida como codl- 
ficaęfm hash ou hashing. Fssa abordagem requer ter unia funęao ‘hash’ que mapeia sfmbolos para inteiros na faixa 
0 a k - I. Urna funęao possfvel 6 multiplicar os códigos ASCII dos caractcrcs presentes nos sfmbolos, ignorar o vai- 
um c tomar o módulo da divis3o h rcsultantc ou dividi-lo por um mimem primo. Na verdade. praticamenle qualqucr 
funęao da entrada que der unia distribuięrSo uniformc dc valores de hash sernird. Sfmbolos podcm ser armazenados em 
unia tabela que consista em k piirtięócs muneradas de 0 a k - 1. Todos os pares — sfmbolo, vtiloi - cujo sfmbolo 
rcsultar i após a operaęao de hash siio armazenados em urna Usta encadcada que e apontada pcla posiędo i na tabela dc 
hash. Com ii sfmbolos e k posięócs na tabela de hash. a lista media terd comprimcnto n /k. Escolhendo k aptoxiitiada- 
mente igual a u. os sfmbolos podem ser localizados com cerca de apenas urna consulta em media. Ajuslando k 
podemos reduzir o tamanho da tabela & custa de consultas mais lentas. A codificaęao hash ć ilustrada na l igura 7.7. 


Figura 7.7 

Codificaęao hash. 

|a| Simbolos. valores e os 
códigos hash derivados. 
(b| Tabela hash de oito 
entradas com Ilstas 
encadeadas de simbolos 
e yalores._ 


Andy 

14025 

0 

Anton 

31253 

4 

Cathy 

05254 

5 

Dick 

54185 

0 

Erik 

47357 

6 

Frances 

56445 

3 

Frank 

14332 

3 

Gerrit 

32334 

4 

Hans 

44546 

4 

Henrl 

75544 

2 

Jan 

17097 

5 

Jaco 

64533 

6 

Maarten 

23207 

0 

Flemd 

63453 

1 

Ftoel 

76764 

7 

Wiliam 

34544 

6 

Wiebron 

34344 

1 


Tabela (a) 

de hash Tabela encadeada 


0 

- 


Andy 

1 14025 

~t —Maailen 

1 23207 1 

Dick 

1 54185 1 

1 

- 

< 

Reińd 

1 63453 

~ł—H Wiebren 

1 34344, j 

Z) 


2 



Henr! 

1~7Ś544 1 | 




3 

- 

-C 

.1 

Frances 

1 56445 

-1 —-1 Frank 

1 14332 1 

□ 


5 

- 

►c 

Jan 

1 17097 

»-l Calhy 

1 65254 1 

□ 


>' 

7 


H. 

< 

Rool 

1 76764 

=□ 



1 i 


7.4 Ligaęao e carregamento 

A maioria dos programas consiste eni mais dc um procedimento. Em geral. compiladores e assemblers tradu- 
zem um procedimento por vez. e colocam a safda traduz.ida em disco. Antes que um progriuna possa ser cxecutado. 
todos os pmcedimentos traduzidos devem ser encontrados e interligados adequadamente. Se nao houver memória 
virtual disponfvel. o programu ligado deve ser esplicitamente carTegado tambem na memória principal. Programas 
que executam cssas funęóes tfim vórios nomes. entre eles ligadnr. ligarlnr carregarlor e editnr de ligaęao A tra- 
duęao completa de um programa-fonie requer duas etapas, como mostra a Figura 7.8: 
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Figura 7 8 

A gerayśo de um prograina bmirio 
executavel a partu de um conjunto 
de procedirnentos fonie iraduzidos 
lndependeiitemente requer a 
ulilizaęaó de mu ligador. _ 



t. Compilayao nu montugem dos procedimentos-fonte. 

2. Liguyan ile módulos objctos. 

A primeim ciupa i cxecutada pclo compiludor ou assembler e a segunda i realizada pelo ligador. 

A traduyao de proccdiincnlo-fonle para módulo objęło rcpreseula urna ntudanęa dc m'vol porquc a linguagem- 
Ibnte e a linguagem alvo lim instruyócs e noluyiio difcrentcs. O proeesso de ligaęao, eniretanto, nao represenla urna 
mudanęa de irnel. unia vez que u cnlrada do ligudor, hem como a safda do ligador, sao programas para a mesrna 
inaquina virtual. A 1’unęSo do ligador i reunir procedimenlos iraduzidos em sepurado c liga-los uns aos outros para 
que sejam cxecutados como urna unidade denominada prograina binarni exeeulaul Em MS-DOS, Windows 
95/98 e N I os módulos de objęto lim a extensao .obj e os programas bindrios execuldveis tent a exten.sdo .exe. Em 
UNIX, os módulos de objęto lent eMensao .o; programus bindrios execuiaveis nao lim exlensao. 

Compiladores e assemblers traduzem cada prncedimento-fonte como unia entidude separada por unia boa 
razdo. Se um compilador ou assembler tivesse de ler urna serie de procedimentos-fonte e produzir diretamente um 
programu cm linguagem de mdquina pronto para exeeutar, alterar utną unica declaraydo em um unico proccdiraen- 
to-fonte exigiria que todos os procedimenios-fonte fossent tradu/idos noyamente. 

Se lor utilizadu u ticnica de módulo objęto sepurado mostrada na Figura 7.8, baslu traduzir novamenlc o pro- 
cedimento niodifieado, e ndo os que nao forum allerados, ernbora seja necessdrio reiigar indos os módulos de obję¬ 
to novumente. Todut ia, normalnienie a ligaydn ć ntuito inais rapida do que a traduyao; por issn, esse proeesso de 
duus ciapus ile traduędo e ligayao pode poupur grandę quunlidade de tempo durante o desenvolvimento de um pro- 
grama. Esse gunbo e de espeeial importancia para programas quc tim eenienas de milbnres de módulos. 

7.4.1 Tarefas realizadas pelo ligador 

No inicio da passagem de um do proeesso de mnntugein, o enntador de localizayao de inslruydo estli ajustado 
cm ł). Essa etapu cquivule u adinitir que o módulo de objęto estard localizado no endereyo (virtual) 0 durante a exe 
cuyflo. A Figura 7.9 moslra qualro módulos objęto para urna mdquina genirica. Nesse exemplo, cada módulo come- 
ya com urna instruyuo BRANCH para urna inslruydo MOVE dentro do módulo. 

Fara executur o programu, o ligador traz os módulos objęto para a memória principal para lorrnar a intageiu 
do programu binario executivel, como moslra a Figura 7.i(Ha). A idćia ć luzer urna iniagem exula do espayo de 
endereyo virluul do programu executiivel dentro do ligador e posicionar Indos os módulos objęto cm suas localiza- 


Flunra i.o 

Cada módulo tern seu próprio 
espayo de endereyo com 
inicio em U. 


Módulo objęto A 


400 


300 

CAILB 



200 

M0VE P TO X 

100 



BRANCH TO 200 


Módulo objęło C 



400 

CALLD 

300 


200 

MOVE R TO X 

100 


0 

BRANCH TO 200 
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ęócs corretas. Se n3o houver mcmória (virtual) suficicnic para formar a imagem, pode-se usar um arquivo cm disco. 
Normalmente, uma pcqucnu scęSo da memória com infcio em endereęo zero ć usada para vetores de intemipęio. 
coniunicaęao com o sistema operacional, captura dc ponteiros nao iniciaJizados ou outrus (inalidades, portanlo os 
programas costumam cnmcęar acima de 0. Nessa figura comeęanios, arbitrariamenle. os programas no endereęo l(K). 

O progrania da Figura 7,IO(a). embora carregado para a imagem do arquivo binlirio executavel. ainda nao estd 
pronto para execuęao. Considere o que aconteceria se a execuę3o comeęasse com a instruęSn no infcio do módulo 
A, O programa nAo dcsviaria para a instruęao MOVE como devcria. porque essa instruęao agora estd em 300. Na ver- 
tlaile. todas as instruęóes de referenda 3 memória falhariam pela mesma razao. H claro quc algo tern de ser fcito. 

Esse problcma. denominado pmblema da relocaęao. ocorre porque cada módulo objęto na Figura 7.9 representa 
um espaęo de endereęo separado. Em uma maquina com cspaęo de endereęo segmentado. como a Peniium 4. em teoria, 
cada módulo objęto poderia ter seu próprio espaęo de endereęo em seu próprio segmentu Contudo, OS/2 e o tinico sis¬ 
tema operacional para o Pentium 4 quc suporta esse conccito. Todas as versóes de Windows e l r NIX suportam apenas 
um espaęo de endereęo lincar, portanto os módulos objęto devem ser fundidos cm um tinico espaęo dc endereęo. 

Alóm do mais. as instnięfies de chamada dc prtKcdimento na Figura 7.l()(a) tanibem mlo funcionarao. No 
endereęo 400, o progrnmador pretendia chamar o módulo de objęto R. porem, como cada proccdimcnlo ć (radtizi- 
do sozinho, o assentbler nilu tem meios de saber qunl endereęo inserir na instruęilo CALL 0 < > endereęo do módulo 
de objęto R nao d conhecido atć o momenlo da ligaęiio. Esse problemu e denominado pmblema da referenda exter- 
na. Ambos os prohlemas que acahantos de citar podent ser resolvidos de inancirn simples polo ligador. 

O ligador fundę os cspuęos de cndcrcęos separudos dos módulos objęto em um tinico espaęo dc endereęo li- 
near eonforme as quatro etapas seguintes: 

1. Ele constrói uma tabela de todos os módulos objęto e seus comprimentos 

2 . Com base nessa tabela, o ligador designa um endereęo de infcio a cada módulo objęto. 


Maura 7.10 

Os módulos objęto da Figura 
7.9 após o posictonamento na 
imayem binaria, mas antes da 
relocaęao e da ligaęao. 

|b) Os mesmns módulos de 
objęto após a ligaęao e após a 
relocaęao. 


1900 




1900 



MOVE s ro X 




MOVES10X 

1700 



► ob|eto 

D 

1700 


1600 

BRANCH TO 200 

J 


1600 

BRANCH TO 1800 

1500 




1500 


CALLO 



CALL 1600 

1400 



Módulo 

1400 


1300 

MOVE R TO X 


c 

1300 

MOVE R TO X 

1200 




1200 



BRANCH TO 200 

> 


1100 

BRANCH TO 1300 



\ 




CALL C 




CALL 1100 

900 



Mńdulo 

objoto 

900 


soo 

MOVE O TO X 


800 

MOVE o ro X 




B 



700 




700 


600 




600 



BRANCH 10 300 



500 

BRANCH TO 800 

500 






CALL B 




CALL 500 




Módulo 



300 

MOVE P TO X 


y ob)«to 

300 

MOVE P TO X 







200 




200 



BRANCH 10 200 




BRANCH TO 300 

100 

0 




0 










3. Ele acha Indus as instruęóes que referendum mcmória e adiciona a cada unia delus unia cunstunte de 
relocaęan igual ao endereęo de inicio de seu módulo. 

4. Ele acha ludu* us instruęóes quc rcferenciani outros procedimentos e insere os endereęos desses proccdi- 
tnejitos no lugur udcquudo. 

A labela dc módulos objęto construfda na etapu I i mostrada para os módulos da Figura 7.10 a seguir. Ela dii 
o nome, o comprimento e o endereęo de inicio de cada módulo. 


1 Módulo 

Comprimenti 

3 1 Endcreęo de inicio 1 

A 

400 

100 

B 

600 

500 

C 

300 

1.100 

D 

300 

1.600 


A Figura 7.10{b) mostra o aspecto do espaęo de endcreęo da Figura 7.10(a) após o ligador ter reali/ado essus 
etapas. 

7.4.2 Estrutura de um módulo objęto 

Módulos objęto coslumam conter seis purtes. como mostra a Figura 7.11. A primeira parte conlćm o nome do 
módulo, certas inforniaęóes de que o ligador precisa, como os comprimentos dus vdrias partes do módulo, e, iłs 
vezes, os dados de nioiitugem. 

A scgunda parte do módulo objęto e urna lista dos sfmbolos delinidos no módulo que outros módulos podem 
referenciar, acoinpanliados dc seus valores. For exemplo, se o módulo consistir eni um procedimcnto denominado 
bighug, a tabela de pontos ile entrada conterd a cadeia de caracteres ‘bigbug’, acompanhada do endcreęo ao qual 
ela eorresponde. Um progrumudor dc linguagcm de nioiitugem indica quais sfmbolos devcni ser declarados como 
pontos de entrada usundo unia pseudo-instruęao como PUBLIC nu Tabela 7.2. 

A tcrceira parte do módulo objęto consiste em unia listu dos sfmliolos que sSo usados no módulo, mas que s3o 
delinidos cm outros módulos, junto coni urna lista das instruęóes de maquina que Usam cada sfmbolo. O ligador 
precisa dessa Ultima listu cm ordcm para poder inserir os endereęos correlos nas instruęóes que usam sfmbolos 
externos. Um procednnento pode cbamar outros procedimentos tradu/.idos independcntcmente declarando como 
eslernos os nomes dos procedimentos chamados. O progrumudor dc linguagcm dc montagem indica quais sfmbo¬ 
los devem ser declarados como sfmbolos externos usundo urna pseudo-instruęao como EXTERN na Tabela 7.2. Em 
ulguns computadores. pontos de entrada e referencias extemas sito combinados em unia Unica tabela. 

A quarta parte do módulo objęto siło o código montado e as constanles. Essa parte do módulo de objęto e u 
Unica que sera curregada na mcmória para ser executada. As outras cinco partes seriio usailas pelo ligador para 
ujudś-ln a la/er seu iiubulho e eqtao serao descartudas antes do inicio da execuęao. 

A quinta parte do módulo objęto e o dicionario de rctucaęiło. Como mostra a Figura 7.10, instruęóes que eon 
tern endereęos de meinória devem ser somadas a unia constunte de relocaęao. Visto que o ligador nao tern nenhum 
meio dc deterininar, por inspeęiio. quais das palavrus de dados nu parte quatro contem instruęóes de mdquinu e quais 
contem constanles. a informuęao solne os endereęos quc devcm ser relocados e dudu nessu tabela. A informuęao 
pode toinar a forma de unia tabela de bits com I bit por endcreęo quc tern possibilidudc de ser relocado ou unia listu 
csplfcita dc endereęos que deverSo ser relocados. 

A scxta parte & unia marca quulquer de finał de módulo, talvez unia soma de vcrificaędo para pegar erros 
enquanto le o módulo e o endcreęo no qual comcęar a execuęiln. 

A muioria dos ligudores rcqucr duas passagens. Na passagein um o ligador Id lodos os módulos objęto e cons- 
trói unia tabela de nomes e comprimentos de módulos bem como unia tabela glohal de sfmbolos que contćm todos 
os pontos ile entrudu e referencias exlenias. Nu passagein, dois os módulos dc objęto sSo lidos, relocados e ligados. 
um módulo por vez. 
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7.4.3 Tempo de vinculaęao e relocaęao dinamica 

Km urn sistema com multiprogramaęao. urn programa pode sct lido para a memória principal. executar duran- 
ic um certo tempo, ser escrito para disco e entao lido de vol(a para a memória principal para ser executado nova- 
mente. Em um sistema de grandę porte, com muitos programas, e diffcil garantir que um programa seja lido dc volta 
para as mesmas localizaęnes toda vez. 

A Figura 7.12 mostra o que aconteceria se o progrania jd relocado da Figuru 7.10(b) fosse recarregado no ende¬ 
reęo 400 em vez de no endereęo 100 onde o ligador o colocou originalmentc. Todos os cndereęos de memória estfio 
incorrctos; alem do mais, a informaęao dc relocaęao hd muito foi descartada. Mesmo que a informaęao de reloca- 
ę8o ainda eslivcsse disponfvel. o custo de ter dc relocar lodos os endereęos toda vez que o programa fosse chavea- 
do seria muito alto. 

O problemu dc movcr programas que foram ligados e relocados estd rclacionado muito de perto com o momen¬ 
tu cm quc a vinculaęao finał dc nomes simbólicos a endereęos de memória ffsicos absolutos ć conclufda. Quando 
lim programa ć escrito. ele contćin nomes simbólicos para endereęos dc memória. por exemplo. BR L. O momcnlo 
cm quc ć determinado o endereęo dc memória principal propriamcnle dito correspondente a /. e denominado tempo 
de vinculaęao. Ha pelo menos seis possibilidades para o momento de vinculaęao: 

1. Quando o programa ć escrito. 

2 . Ouando o programa 6 traduzido. 

3. Quando o programa e ligado, mas antes de ser carregado. 

4. Quando o programa 6 carregado. 

s. Ouando um registrador de base usado para endereęamento ć carregado. 

e. Qiuindo a instruęflo que contćm o endereęo 6 exccutada. 

Se urna instnięao que contóm um endereęo de memória for movida após a vinculaęao. ela serii incorreta (consi- 
derando que o objęto ao qual se relere tambem foi movido). Se o tradutor produzir um biniirio executavel como salda, 
a vinculaęao ocoireu durante o tempo da traduęao e o programa deve ser executado no endereęo em que o tradutor 
esperava quc ele fosse executado. O metodo de ligaęao descrito na seęSo anterior vincula nomes simbólicos a endere- 
ęos absolutos durante a ligaęSo c ć por isso que mover programas após a ligaęSo falba. como mostra ii Figura 7.12. 


Finura 7.12 

Programa binśrio relocado da 
Figura 7.10(b|, movido 300 
endereęos para cima. Muitas 
instnięóes agora se referem a 
um endereęo de memória 
incorreto._ 


2200 



MOVE 8 TO X 

2000 


1000 

BRANCH TO 1800 




CALL 1600 

1700 


1000 

MOVE R TO X 

1500 


1400 

BHANCU TO 1300 



1300 

CALL 1100 

1200 


1100 

MOVE O TO X 

1000 


000 



BHANCH TO 000 



700 

CALL 500 


000 

MOVE P TO X 

500 



BRANCH TO 300 

0 






Ha dois assuntns relacionados envolvidos aqui. hm primeiro lugar, ha a quest3o do memento em que nornes sim- 
bólicos sio ligados a endereęos virtuais. Em segundo lugar, ha a quest3o do momento em quc endereęos virtuais silu 
ligados a endereęos fisicos. A vinculaęao esla concluida somenie quundo umbas as operaęóes ocorrcrum. Quando o 
ligador funtlc os espaęus de endereęos separados dos módulos objęto cm urn unito espaęo de endereęo linear, na ver 
dade ele estd criando urn espaęo de endereęo virtual. A relocaęao e a ligaędo servem para vincular nornes simbólicos 
a endereęos virtuais especitleos. Essa observaęao ć verdadeira quer a memória virtual esleja sendo ulili/ada ou nao. 

Considere, por cnquanto. que o espaęo de endereęo da Figura 7.l(Hb) losse paginado. h claro que os endere- 
ęos virtuais conespondcntes aos nornes simbólicos A, /i, C e /> ja forum delerminados, mesmo que sens endereęos 
ffsicos de memória principal ainda dependam do conteudo da tabela de pdginas no niomenlo em quc forem usados. 
Na reulidade, urn programu binario execut£vel ć uma vinculaędo de nornes simbólicos u endereęos virluais. 

Quaiquer mecanismo que perinita que o mupeamento de endereęos virluais para endereęos de memória ffsi- 
ea seja trocado cum fucilidude lumbćm facilitara a niovimcnlaęao de programus pela memória principal, mesmo 
depois de uqueles endereęos terem sido ligados a urn espaęo de endereęo virtual. Urn desses mecanismos ć a 
paginaęao Após u mo\ imentaędo de urn programu na memória principal, somente sua tabela dc ptiginas precisa 
ser alterudu. e min o programu cm si. 

Urn segundo mecanismo i u ulili/uęao de tan registrador de relocaęao em tempo de execuęao. O CDC' 6600 e 
seus sucessores tiuliam um registrador desses. hm mdquinas que usam essa tćcnica de relocaęao, o registrador seni- 
pre aponta para o endereęo de memória ffsica do infcio do programu coiTcnte. O hardware acrescenta o registrador 
de relocaęao a lodos os endereęos de memória antes de envid-los a memória. Todo o processo de relocaęao e trans 
parente para os programas usuarios — eles nem sabem o que estd ocorrcndo. Quando um prognuna e movido, o sis- 
tema operacional deve aluali/ar o registrador de relocaęao. hsse mecanismo e menos gcral do que a paginaęao por 
que o programu intciro deve ser movido como unia unidadc a menos que haja registradores de relocaęao de dudos 
e dc código separados, como no Intel 8088, easo em que ele tern de ser niovido como duus unidades. 

Um terceiro mecanismo ć possivel em mdquinas que podcm referenciar memória relativa ao contador de 
programu. Muitas instruęócs dc desvio sao relativas uo PC, o que ajuda. Sempre que um programu e movido na 
memória principal, somente o contador de programu precisa ser atualizado. Um programu no qual loilas as refc- 
rencius a memória ou sao relativas ao contador de programu ou sSo ubsolutas — por cxcmplo, a registradores 
de disposilivos de h/S em endereęos ahsolutos e denominado independenle de posięao. Um procedimento 
independente dc posięao pode ser colocado em qualquer lugar dentro do espaęo de endereęo virtual sem neces 
sidade de relocuęiio. 

7.4.4 Ligaęao dinamica 

A cstruiegiu dc liguęiio disculida na Seęao 7.4.1 tern a propriedade de que todos os procedimentos que um pro¬ 
gramu podcriu chamar sao ligados antes que o programu possa iniciur u exccuęao. hm um coniputudor com memó¬ 
ria virtual. concluir loda a ligaęao antes de iniciar a exccuęao nao apnweitu todas as capucidudes da memória vit- 
luai. Muilos programus tern procedimentos quc sao chamados upenus sob circunstancias fora do comum. Por 
exemplo, compiladores tdm procedimentos para conipiłar dccluraęóes raraniente usadas, alćm de procedimentos 
para tratar condięóes de erro que ocorrem raraniente. 

Uni iiumIo mais flex{vel de ligar procedimentos compilados eni separado ć ligar cadu procedimento no momen- 
(o em que ele ć chamado pela prinieira vez. Esse processo e denominado ligaęao dinamica O pioneiro em sua uli- 
lizaęao foi o MULTICS. cuja implementaęao, sob certos aspectos, ainda e insuperavel. Nas seęóes seguintes estu 
darcmos u ligaęao diuamicu cni vdrios sistemas. 

Ligaęao dinamica em MULTICS 

Nu forma MUI TICS de ligaęao dinamica, hti um segmentu associado u cuda programu, denominado segmen¬ 
tu de ligaę&o. que contóm um bloco de informaęóes para cada procedimento que poderia ser chamado. Esse bioto 
de infonnaęóes comeęa com unia palavra reservuda para o endereęo virtual do procedimenio c e seguida pelo 
nonie do procedimento, quc ć urma/enado como uma cadeia de caracteres. 

Quando u ligaęao dinamica esla sendo usuda, chamadas de procedimento na linguagem-fonte sao iradn/i- 
das para instruęócs que endcieęam indiretaniente a prinieira palavra do bloco de ligaęao correspondente, como 
mostra u higuru 7.13(a). O compilador preenche essa palavra com um endereęo invdlido ou com um padrdo de 
bils espccial que foręa uma exccędo. 

Quundo ć chamado um procedimento que estd em um segmento diferente, a lenialiva de endereęar a pala 
vra im dlida indiretaniente causa uma exceędo para o ligador dinamico. Entao, o ligador acha a cadeia dc carac¬ 
teres na palutTu quc vem a|iós o endereęo invdlido e pesquisa o diretório de arquivos do usuario em busca de um 
procedimento compilado com esse nome. Depois 6 atribuido um endereęo virlual a esse procedimento, usualmen- 
te em sen próprio segmento privado, e esse endereęo virtual sobrescrcve o endereęo invdlido no segmento de liga¬ 
ęao, como indicado na l iguru 7.l3(b). Em seguida, a irtstruęao que causou a fulha de liguędo ć cxeculada nova- 
mente, o que permilc ao programu conlinuur dc onde estava antes da cxceędo. 

Tmlus us referenci as Mihseqiicntcs a esse procedimento serdo executadas sem causar falha de ligaędo por- 
que a paluvru indireta agora contćni um endereęo virtual vdlido. Por conseqiigncia, o ligador virtual ć invocudo 
somente nu prinieira vcy. cm quc um procedimento ć chamado e, dal cm diunie, ndo e mais invocado. 


J 
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Futura 7.13 

Ligano dlnSmtca 
(a) Antes de EARTH ser 
chamado. (b| Após EARTH 
ser ehatnado e llgado. 




Ligaęao dinamica em Windows 

Todas n ccrsfles do sistema operacional Windows, incluindo o NT. suportani lipaza" dinflmica e dcpcndcm 
muito dela. A llgaęSo dinamica usa um Ibrmato de arquivo cspccial dcnominado DLI. 1 1)\ mimie Link Library — 
hlblioteca de lignęmi dluflmiea). DLLs podeni conter proccdimenlos. dados ou anihos. 

Iślas sflo comumcntc usadas para pemiilir que dois ou mais processos comparlilhem proccdimenlos de bihlioleca ou 
dados. Muilas DLLs l6m exlcnsao .illl. mas lambćm hd outras extcnsóes cni uso. incluindo .drv (para bihlioleca de 
drivers) e Jon (para bibliotecas de fontes lipogrdficas). 

A fonna mais conium de uma DLL 6 urna bihlioleca que consiste em urn cunjunto ile proccdimenlos que podeni 
ser carrcgados na meinória e acessados por varios processos ao nicstno tempo. A Figura 7.14 ilustra dois programas 
quc compaililham uni arquivo DLL que cantem quatro procedimenlos. A, R. C c/U) programa I usa o proccdi- 
mento A: o programa 2 usa o procedimento C. embora pudessem perfeitamente ter usailo o mesmo pmcedimenlo. 

Unia DLI. 6 conslnuda pelo ligador a partir de um conjunto dc arquivos de enlrada. Na cerdade, conslruir um 
arquivo DLL ć muilo parecido com conslruir um programa bindrio cxecutdvel. exceto que ć dado um sinalizador espe- 


Ptocesso usuSrio 1 PraMsao usuśrio 2 















ciul ao ligador para mfornió-lo que deve fazer unia ULI- Dl -Ls> coslumam ser construfdas u parlir dc conjunuis de pro- 
cedimenlos de biblioteca i|ue provavelmente serito necessdrios para multiplos processos. Os proccdimenios de inlcrfu- 
ce para a biblioteca dc ehuinadas e para as grandes bibliotecas graficas do sisteina Windows sdo exemplos coniuns dc 
Dl.Ls. A vuntagem de usar DLLs 6 poupar espaęo na memória e cm disco. Se aiguma biblioteca de uso coinum fosse 
ligada cstaticamente a cada programu quc a ulili/a. c!a apareceria em muitos bindrios execuldveis no disco e na memó¬ 
ria, desperdięundo espaęo. Cum Dl.Ls, cada biblioteca apareee apenas unia vez em disco c urna vcz na memória. 

Alóm de poupar espaęo, essa ubordagem faeilita a atualizaęao de procedimentos de biblioteca, mesmo depois 
quc os programas que as estao usundo tenham sido eompilados c ligados. No caso ile pacotes de softwares comer- 
ciais. ipiando os usuanos rarainente tćm o código-fonte, usur DLLs significa que o fabricante do software pode eli 
minur os bugs nas bibliotecas dislribuindo novox arquivos DLL pela Internet, sem precisar fazer quaisquer alleru¬ 
ęóes nos programas bindrios principais. 

A principal diferenęa entre urna DLL c urn bindrio executdvcl e que urna DLL nfio pode ser iniciada e execu 
ludu por si propria - porquc nao leni programu principal. Hla tambem tein infomiaęóes diferenles no cabeęalho. 
Adcmais, u DLL como urn lodu tein varios procedimentos extras quc udo sao relucionados com os proceilinientos 
na biblioteca. Por exemplo, ha um procedimcnlo que e automulicunienie chumado sempre que urn novo processo e 
vinculado ii DLL. e um outro que e automalicamente chumado sempre que um processo e desvinculado delu. Esses 
procedimentos podcm alocar c desalocar memória nu gerenciar outros recursos de que u DLL necessitu. 

I la dois modos dc um programu se yiucular u urna DLL. No primeiro, denomiuailo ligaęao implidlu, o pnigrania 
do usuiirio cslti ligado estaticaniente a um arquivo especial denominado biblioteca de iinportuęao, que e gerado por um 
programu utilitario quc extrai cert as infonnaęóes da DLL. A biblioteca de impoilaęao fomece o adesivo que pennile que 
o programu usuiirio accsse u DLI—lim programu usudiio pode ser ligado a vdrias bibliotecas de importaęilo. 

Quundo um programu que usu ligaęan implicite e carregado na memória para csecuęao, o Windows o cxumt 
na para ver quais DLLs cle usa e veriłica para vcr se todas elas ja estao na memória. As que udo estao na uicinóriu sao 
cuiTegadas iinediatamentc, mus nao nccessariamente inteiras, visto que siio paginudas. Em seguidu sao fcilas algumus 
alleruęóes nas estrutui as ile dados nas bibliotecas de importaęilo, de modo que os procedimentos cliamados possani ser 
localizados. bssus alleruęóes sao um pouco parecidas com as niostradas na Figura 7.13. Elas lambćm tern de ser 
mu|ieadas para o espaęo de endereęo virtuai do programu. Nesse ponto. o programu usuiirio esla pronto para cxccutar 
e pode chamar os procedimentos que estao nas DLLs como se eles estivessein eslalicamenle vinculudos a ele. 

A alteniutiva ii ligaęao implfcita ć sem neiihuma surpresu u liguęan esplicita Essa ubordagem udo requer 
bibliotecas de imponaędo e udo faz com que as DLI.s sejam camegadus ao mesmo tempo que o programu usudrio. Bm 
vcz disso, o programu usuiirio faz urna chuinudu cxplicita duraiilc o tempu de cxccuęao paru se vinculur a uma DLL e, 
em seguidu, luz. chumudus udicionais para obter os endereęos dos procedimentos de quc necessitu. Dina vez encontru 
dos esses endereęos, o programu usudrio pode chamar os procedimentos. Após (udo isso, ele faz uma ehamada finał para 
se dess incular da DLL. Quundo o ultimo processo se dcsvinculu de unia Dl .L, csla pode ser reimwida da memória. 

B iniporlante enlender que um procedimento em uma DLL ndo leni nenhuuia identidade propria (como acou- 
tece com um tlircad ou um processo). Bla executa no thread do chamador c usu a pillia dt> chamudor para suas vari.i 
veis locais. Pode ter dados eslalicos especificos de processo, bem como dados conipartilhados, e, quanto ao muis, 
se couiportu do mesmo modo quc um procedimento ligado estaticamenic. A unica diferenęa esscncial e o modo 
como a yinculaęao e realizada. 

Ligaęao dinamica em UNIX 

O sisteina UN1X tern um mecanismo que ć. em esseneia, similar as DLLs em Windows, denominado bibiio- 
leca compartilhada Como um arquivo DLI, uma biblioteca companilhada ć um arquivo de arquivos que contem 
vdrios procedimentos ou uuklulos de dados que est8o presentes na nieniória durante o tempo de execuęao e que 
podeń i ser vinculados a varios processos ao mesmo tempo. A biblioteca padrao C e grandę parte do código de rede 
sao bibliotecas compurtilhadas. 

O UN!X suportu apenas ligaęao implfcita, portanlo unia biblioteca compartilhada consistc cm duas partes: unia 
biblioteca hospedeiru, ligada estaticaniente com n nrquivo cxecutavel, e uma biblioteca-alvo, que e cliamada duran¬ 
te u exccuęao. Bmhoi a esses detalhes sejuni dilerentes, os conceiios sao essencialmenlc os niesmos quc os das DLLs. 

7.5 Resumo 

Bmboru a maioiia dos programas pudesse e devesse ser escrito em uma linguagem de alto nfvel, existeni situa- 
ęóes nas ijuais e necessaria unia linguagem de montagem. ao menos em parte. Programas para computadores pnr- 
tdteis pobres em recursos, lais como smart cards, processadores embulidos em eletnidoiućsiicos e agendus digitais 
portdteis sem fio sao candidatos potenciais. Um programu em linguagem de moniugem ć uma reprcscnluęao sini 
bólica para algum programu suhjacenlc em linguagem de nuiquina. Ele e traduzido para u linguagem de mńquinu 
por um progruma denominado assemhlcr. 

Quamlo a execuęao extremamente rapida ć erftica para o sucesso de aiguma uplicaęao, uma ubordagem nie- 
Ihnr do quc escrever tudo em linguagem de montagem e primeiro escrever todo o pi ogrania em uma linguageiu dc 
altu nivel, enlao medir onde ele esta gustando seu tempo e, por lim, reescrevcr somenle as poręóes do programu que 
sao muilo usudas. Na pnilicu, em geral uma pequena fraędo do código ó responsdvel por uma grandę fraę&o do 
tempo de cxccuęio. 
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Muitos asscmblcrs tein mn recurso de macro quc pcrmile que o programador dS nomcs simbólicos a seqliSn- 
cias de código comumcnle usadas para inclus9o subseq(iente. Em geral essas macros pudem ser parametrizadas dc 
modo direlo. Macros sdo iniplenientadas por urn lipo dc algoritmo de processamento literał de cadeias. 

A maioria dos asscmblcrs ć dc duas passagens. A passagcm um ć dcdicada a monlar urna tabela de sfmbolos 
para rótulos. litcrais c idcntilicadores especificamcntc dcclarudos. Os sfmbolos padem ser manlidos sem ordena^ao 
e entao pesquisados linha por linha, ou primeiro orilenados e depois pesquisados usando busca bindria. oti passar 
por urna operaędo de hash. Se ndo for preciso apagar os sfmbolos duranłc a passagem um, usualmentc o hashing ć 
o melhor mćtodo. A passagcm dois faz a geraęSo de código. Algumas pseudo-inslruęOcs sdo executadus na passa 
gem um e algumas na passagem dois. 

Programas montados independentemente podcm ser interligados para formar um programu hinario executdvel 
quc pode ser executado. Fsse trabalho ć feito pelo ligador. Suas tarefas primdrias siło relocaędo e vinculnędo «le 
nomes. I.iga<,ao dimlmica ć urna tecnica na qual certos procedimentos só sdo ligndos quando forem chamados. As 
DLLs do Windows e as bibliolecas companilhadas do UNIX usam ligaęao dinatnica. 

Problemas 

1 . Pstra certo programu. 2% do código 6 responsdvel por 50% do tempo de exeeuędo. Compttre tempo de progra- 
mayao c tempo de execuęBo para as trCs estratćgias seguintes. Considerc que levaria I(K) homens-mes para escrc- 
v€-los etn C. e que o código de inontagem ć 10 vczes mais lento para escrcver e quatro vezes mais eficienle. 

a. Todo o programu cm C. 

b. Todo o programu cm assemblcr. 

c. Primeiro todo etn C e. entdo, os 2% fundamentais reescritos eni assemblcr. 

2 . As considera^ócs vdlidas para assemblers de duas passagens tambćm valem para compiladores? 

a. Considerc que os compiladores produzem módulos objęto, e nao código tle montagem. 

b. Considerc que os compiladores produzem linguagem dc montagem simhólicn. 

3. A maioria dos assemblers para as CPUs Intel consideram os endereęos dc destino como o primeiro operando 
e o endereęo-fonte como o segundo operando. Quais problemas teriam de ser resoh idos para fazer isso na 
ordcm imersa? 

4. O programu a seguir pode ser monlado em duas passagens? EQU e urna pseudu-instruędo que iguala o rótulo 
d cxprcss3t» no campo do operando. 

P EQU O 
Q EQU R 
REQU S 
SEOU4 

5. A Dirtcheap Software Company estd planejando produzir um assembler para um compulmlor com urna pałam 
de 48 bits. Para manier os custos baixos, o gerente de projeto, dr. Sovina, decidiu limitar o comprimento dos sfm¬ 
bolos pemtilidos de modo que cada sfmbolo passa ser annazenado em uma unica pałam. Sovina declarou <|tie 
os sfmbolos sń ptKlem conter lei ras, exceto a letra Q. que ć proibida (para demonstrnr aos clientes sua pretKUpa 
ęat) com a cficićncia). Qual 6 o comprimento mńximo de um sfmbolo? Descrcva sen csqucina de codiftcaęio. 

6. (Jual e a diferenya entre urna instnięao e uma pseudo-instmęao? 

7. Qual ć a diferen^a entre o contador de l(K a alizavao dc instruęao e o contad«*r dc programu (se e que hd algumał? 
Aflnal, ambos monitontm a próxima instruę3o em um programu. 

8. Mostre a tabela de sfmbolos depois que as seguintes dcdaraęOcs Pentium 4 fornm eiK-ontradas. A piimeira 
declara^ao ć designada para o endereęo 1.000. 

EVEREST: POP BX (1 BYTE) 

K2: PUSH BP (1 BYTE) 

WHITNEY: MOV BP.SP (2 BYTES) 

MCKINLEY: PUSH X (3 BYTES) 

FUJI: PUSH SI (1 BYTE) 

KIBO: SUB SI.300 (3 BYTES) 

9. Voc6 pode imaginar circunsulneias nas quais uma linguagem de montagem permitc que um rótulo seja o 
mesmo que um opcotlc (por excmplo. MOV como um rótulo)? Discuta sua rcs|xista. 

10 . Mostre as etapas neccssarias para pest|uisar Berkeley usando busca bindria na seguintc lista: Ann Arbor. 
Berkeley. Cambridge. Eugene. Madison. New Huven. Pało Alto. Pasadena. Santa Cruz. Stony Brook. 
Wcslwood c Yellow Springs. Ao calcular o elementu do meio de uma lista quando lid um ntimero par dc cle- 
mentos. usc o elementu que vem logo após o fndice do meio. 

11. Ś p«issfvel usar busca bindria em uma tabela cujo tamanho 6 um numeru primo? 

12. Calcule o código hash para cuda urn dos seguintes sfmbolos Komando as Iclrns (A = I, B = 2 etc.) e consi- 
derando o mótlulo da suma dividida pelo tamanho da tabela dc hash. A tabela de hash tern 19 posięócs 
numeradas de On 18. 

els. jan, jelle, maaikc 

Cada sfmbolo gera um tinico valor de hash? Se nao gerar. como pinie ser rcsolvido um problema de colisio? 



13. O metodo dc codificaęao luish descrito no texto liga todas as enlradas que tern o mesmo código de hash ein 
nma listu cncadeada. Um metodo aitemalivo e ter somente urna tabelu dc n posięóes e cada posięio da tabela ter 
espaęo para unia unicu chave e seu valor (ou ponteiros para elas). Se o algoritmo de hush gerar unia posięSo qiic 
jd esld eheia, e feita unia nova tentativa usando um segundo algoritmo de hash. Se a nova posiętio gerada tam- 
bem estiver eheia. e usado um outro algoritmo c assim por dianie, atć que se eneontre urna posięao vazia. Se a 
Iraętio de posięóes cheias for R. quantas tentativas serao necessdrias, cm media, paru registmr um novo simbolo? 

14 . A medalu que a tecnologia progride, talvez um diu seja possivel coloear inilhares de CPU* idćntieas cm um 
chip, cuda CPl) com algumus palavras de memńriu local. Se todas as CPUs puderem ler e eserever Ires regis- 
iradores compurtilhados, como urna memória associutiva pode ser implementada? 

15. O Pentium 4 tern urna arquiletura segmentadu com vdrios segmentos independeutes. Um assembler para essa 
maquina poderia perfeitamente ter uma pseudo-instmędo SEQ N que comandaria o assembler a coloear códi- 
go e dados subseqiientes no segmentu N. Esse esquema tern alguma inlluencia sobie o 1LC? 

16. ł*reqiieiitemente os progrumas estao ligados a varias DLLs. Nao seria mais cliciente coloear todos os procedi- 
mentos cm uma grandę 1)1.1. e entao fazer a ligaęio com ela? 

17. limu DLL pode ser mapcadu para os espuęos de endereęo virtual de dois proeessos em endereęos virtuais dife 
rentes? Se lor posslvel, quais problcmas surgirium? Eles pudem ser resolvidos7 Se nuo for po$sivel, o que se 
pode fazer para climinś-los? 

18. Um iiumIo de fu/er liga^doTestdtica) e o seguinte: antes de percorrer a biblioteca, o ligador monta uma lista de 
proccdimcnlos neeessarios. isto e, nomes deflnidos como EXTEKN nos módulos que estao sendo ligados. 
Entao o ligador pereorre a biblioteca linha por linha, extraindo todo procedimento que estiver na lista de nomes 
neeessarios. Esse esqucma funciona? Caso nao funcionc, diga por que e como pode ser remediado. 

19. Um regislrador pode ser usado como parametru propriamenle dilo cm uma chamada dc macro? E unia cons 
tanie? Explique as razóes por que pode ou por que nao pode. 

20 . Voce tem de implemenlar um assembler com macros. Por questao de estetica, seu cliele decidiu que definięńes 
de macro nao precisam preccder suas ehamadas. Quuis sao as implicaęócs dessa decisao sohre u implemcnta^So? 

21. Imagine unia muiieira de coloear um usscmbler de macro em um laęo infinito. 

22 . Um ligador le cinco módulos cujos coniprimcnios sSo 200. 8(X). 600. S(X) e 700 palavras. respeclivamente. Se 
eles fossem carregados nessa ordem, quais seriam as constantes de relocuęao? 

23 . Escrevu um pacule de tuliela de simbolos quc consista em duas lotinus: enteĄsymlwI. value) e lookup(syinl>ol, 
wilie). A primcira registru novos simbolos nu tabela e u ultima os consultu. Use alguma forinu de codificaęao łiasli. 

24 . Lscreva um assembler simplcs para o computudor Mic-1 do Capftulo 4. Alćm de maniputar as instruęóes de 
maquina. fomeęa um recurso para designar constantes u simbolos cm tempo de monlugem e um modo de mon 
tar uma constanle em uma pulavra de mdquina. 

25 . Adieione um recurso de macro simples ao assembler do problcma unterior. 
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E mbora oh computadores conlinuem a flcar cada vcz niais nipidos. as demandas impostas a clcs estiio crescendo no nifni- 
ino com a mesma rapidc/.. AstrAnumos qucrem simular unia a historia do universo. dcsdc o hiR banu atć o finał do cspc- 
taculo. Engenhcims famtacSulicos adorariam projetar em seus computadores medicaniemos sob encomenda para doen- 
ęas espeeifieas, em vez de ter dc sacrificar legiócs de ralos. Projetistasde acronaves poderiam inventar produtos mais eficientes 
no consumo dc combustfvel se os computadores pudessent fazer todo o irahalho sem a necessidadc de construir protótipos ffsi- 
cos para testnr em luneis aerodin&micos. Em suma, seja qual for a capacidade de computaęao disponfvel. para muitos usuńrios. 
em especial nas iireas da cifincia, engenharia e industrial, ela nunca serii suficienie. 

Embora as velocidades dc reldgio conlinuem subindo, a vclocidade dos circuitos nńo pode aumentar indefinidamente. A 
velocidade da luz jH ć um grandę problema para projetistas de computadores de alta tecnologia. e a pcrspceliva de conseguir 
que elćlrons e fótons se movam com maior rapidcz sao desanimadoras. QuesU3es dc dissipaęao dc calor estao iransformando 
su|łcrcomputadores em condicionadores dc ar de ultima geraęSo. Por firn, como o tamanho dos trnnsistorcs continua a ditni- 
nuir, chegaia um ponto em t|uc cada transistor ter.1 um nuinero tao pequeno de iilomos dentro dele quc os efcitos da mccanica 
qu3ntica — poi exemplo. o princfpio da inccrleza de Heisenberg podem se tomar um grandę problemu 

Portanto. para enfrentar problemas cada vcz maiores. os arquiletos de computadores estiio rccorrendo cada vez mais a 
computadores paralelos. Se bem epie talvez niio seja possfvel construir um computador com urna tinica CPU e urii tempo de 
ciclo de 0,001 ns. pode ser perfeitamente possfvel construir um com mil CPUs. cada uma com um tempo de eiclo de I ns. 
Embora esse ultimo projeto use CPUs mais lentns do qne o primeiro, sua capacidade lotal dc computayiło ć teoricamente a 
mesma. E 6 aqui que esta a esperanta. 

O paralelismo pode ser introduzido cm vdrios nfveis. No nfvcl mais baixo, ele pode ser adicionndo ao chip da CPU. por 
pipeline e projetos superescalares com viirias unidades funcionais. Tambćm pode ser adicionndo por meio dc palavras dc instni- 
ę8o muito longns com paralelismo implfcito. Caracterislicas especiais podetn ser adicionadas ft CPU para permitir que ela mani 
pule nuilliplos thrcails de controle ao mesmo tempo. Por firn, varias CPUs podem ser reunidas no mesmo chip. Juntas, cssas 
caracterislicas podem equivaler. talvcz, a um fator de dez vezes em deseinpenho cm rela^ao a pmjctos puramente scqUcnciais. 

No nfvel seguinle, placas extras de CPU com capacidade de proeessamenlo adicional podem ser acresccntadas a um sis 
tema. Usualmente. essas CPUs de cncaixe t6ni funęóes especializadas, tais como processamento dc pacotes de rede. processa- 
mento de multimidia ou criplografia. No caso de funęoes especializadas o fator de ganho tambćrn pode ser de. tnlvez, 5 a 10. 

Contudo, para conseguir um fator de ceni, de mil. ou de milhiio. ć necessdrio replicar ('PUs inteiras e Inzer com que todas 
elas funcioncm juntas com elicićncin. Kssa idćia leva a grandes multiprocessadores e multiconfjnitadores (grupos de computa¬ 
dores). Nem ć preciso dizer que interligar milhares de prrKessadores cm um grandę sistema gera seus próprios problemas, quc 
precisain ser tesulvidos. 

Por firn. agora e possfvel envolver organizaęocs inteiras pela Internet e formar grades de coinputaciio fracamente acopla 
das. Esscs sislemas estao apenas conteęando a surgir. mas tem um potencial interessanlc para o futuro. 

Quando duas ('PUs ou elcmcntos de proeessamenlo estao perto uma da outra, tem alta largura dc banda, o atraso entre 
elas 6 baixo e sao intimas cm termos compulacionais. diz-se que sao fortemente acopladas Ao contrtirio. quanto elas estiio 
longe uma da outra, tem baixa largura de banda e alto atraso e sao remolas em termos compulacionais. diz-se que s3o frnca 
mente acopladas. Nesle capitulo vamos cxaminar os princfpios de projeto para essas v3rias formas de paralelismo e estudar 
unia varicdadc dc exemplos. Comeęareinos com os sislemas mais fortemente acoplados, os que usam paralelismo no chip. e 
passarcmos gradativamcnte para sislemas cada vcz mais fracamente acoplados, e concluiremos com alguns comentórios sobre 
coinputaęSo em grade. Esse cspcctro ć ilustrado esquenmticamente nu Figura 8.1. 
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(a) Paralelismo no chip 
(0) Co-piocessador 

(c) Multtpiocessador. 

(d) Mullicomputador. 

je) Gracie._ 


Fortemante acoplada Fiauamenle acoplada 

(a) (b) (c) (d) (•) 

Tiulu u quesl;U> do paralelismo, de limu extremidadc do espectro ii oulru e uni tópico de pesquisa niuilo umai 
c concorrido. Poi isso, duremos um mimem mimo maior de tcfeithioias neste capftult), de picicrenciu a artigos 
recentes sohre o ussunto. Kefeiencius mais introdulórius serSo dadas na Seę3o 9.1.8. 

8.1 Paralelismo no chip 

Hm minio de uumcniur u produtwidade de um dup ć conseguir com que elc faęa nutis coisas au mesnui tempo. 
Nesta seęflo, vumos estudar alguns modos de conseguir aumentar a velocidade por meio do paralelismo no n(vel do 
chip, incluulos paralelismo no m'vel da instruęao, multilhreading e a colocaęao de mais de uma CPU no chip. lissas 
Ićcnicas sśo hem diferentcs, mas cada uma delas ajuda ti sua própria maneira. Mas, em todos os casus, a ideia e con¬ 
seguir quc mais utividades ucouteęam ao mesmo tempo. 

8.1.1 Paralelismo no nivel da instruęao 

Um modo de conseguir paralelismo no ntvel mais buixo ć emilir imiltiplas instruęóes por ciclo de rclógio. lid 
duas variedades de CPUs de cmissdo nuiltiplu: processadores superescalares e processadores VLIW. Nu verdudc, jd 
comentumos alguma coisu sohre cssas duas no livro, mas talvcz seja dtil revisar esse materiał aqui. 

Vimos CPUs superescalares antes — por excmplo, nu Figura 2.5. Na conliguruędo mais comuin, em um certo 
ponto do pipeline lid uma inslruędo promu para ser execuiadu. CPUs superescalares sdo capa/es de emitir imiltiplas 
instruęóes para as unidadcs de execuę&o em urn unico ciclo dc rclógio. O ntimero real de instruęóes emitidas depen- 
dc do projcto do processudor, hem como dus circunstdncius correntes. O hardware determina o mimem md simo que 
piule ser emitido. usualmenle duas a seis instruęóes. Contudo, se uma insiruęio precisar de uma unidadc funcional 
que nao esiu disponfvel ou de um resultado que aindu lido foi calculado, ela udo serd emitida. 

A nutru forma de paralelismo no n(vel da instruęao e encontrada em processadores VI IW (Very [.ung 
Instnution Word — paluvra de instruęao muito longa). Na forma original, mdquinas VI.IW dc falo tinham pala 
vras longas que continham instruęóes que usavam imiltiplas unidades funcionais. Considere, por cxemplo, o pipe- 
linc da Figura 8.2(u), no quul a muquina tern cinco unidades funcionais c pode efetuar. siinultaneamentc, duas ope 
ruęóes com iuteims. uma operaęio de ponto flutuante, um carregamento e um unnazenumento. Uma instruędo 
VI.IW para essa maquina conleria cinco opcodes e cinco pares de operandos, um opcode e um par ile operandos 
por unidadc funcional. Com f> bils por opcode, 5 hits por registrudor c 32 bits por endereęo de memóriu, as inslru- 
ęńes poderiain facilmeme ter 134 bits — ou seja, hem contprida. 

Contudo. esse projeto rcvclou ser muito rfgido porąue nem loda instruęSo podia utilizar todas as unidades fun¬ 
cionais, o que rcsu!iuva em muitas NO-OPs indleis usadas como liltro, como ilustrado na Figura 8.2(h). For conse- 
quenciu. inodemus iuaquiuas VLI W tem um iiumIo de marcar um grupo de instruęóes quc formam um conjunto com 
um bit de 'finał de grupo’, como mostra a Figura 8.2(c). Bntao, o processudor pode buscar o grupo intciro e eniiti- 
lo de uma vez só. ( ube ao compilador preparar grupos de instruęóes compatfveis. 

Na vcrdadc, \ LIW trunsfere o encargo dc determinar quais instnięóes podcm ser emitidas cm conjunto do 
tempo dc execuęau para o tempo dc compilaęao. Essa opęSo nao apenas simplifica o hardware e o tomu muis rdpi- 
do, mas tainbem, visto que um compilador otimizador pode funcionar durante um longo tempo sc for preciso. per 
mile que sc moiilcm pacotcs melhores do que o hardware poderia montar durante o tempu de execuęao. E dam quc 
lal mudunęa radicul na urquitcturu da CPU sera diffcil de introduzir, como dcmonstra a lenta accilaę&o do Itanium. 

A propósilo. sale a pena observar que o paralelismo no mvc! da instruęao nao e a liuica fomm de parulelismo 
ile haixo mvel. Uma outra e o paralelismo no ntvel da inemória, no qual tui imiltiplas operaęóes de memóriu no ur 
ao mesmo tempo (Chou et al„ 2004). 
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(a) Pipeline de CPU. 

|b| Setjuencia de 
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A CPU VLIW TriMedia 

Estudamos um exemplo de unia CPU VLIW, a Itanium-2, no Capftulo 5. Agora vanios esaminar um proces- 
sador VLIW muilo difcrentc, o TriMedia. projetado pela Philips, a cmprcsa holandesa de equipamentos eletróni- 
cos quc tambćm inventou o CD de dud i o e o CD-ROM. A utilizaęAo pretcndida do TriMedia e como uni processa- 
dor embutido ein aplicaęóes que fazeni uso intensivo de iifiagem. Audio e vfdeo, como rcprodutores de CD. DVD c 
MP3. gravadores dc CD e DVD, lelevisores interativos, cAmeras digitais, camcorders e assiitt por dianie. Dadas 
cssas Areas de aplicaęSo, nAo ć surpresa que cle scja consideravelmenle dilerente da Itanium-2. que e urna CPU de 
uso geral. dirigida a servidores dc alta tecnologia. 

O TriMedia 6 um verdadeiro processador VLIW. no qual lodas as instruęóes contfim ate cinco operaęóes. Sob 
condięóes completamcnle ólimas. a cada ciclo de relógio € iniciada urna instruęao c sAo cmilidas cinco operaęóes. 
O relńgio funciona a 266 MHz ou 300 MHz: porem, urna vez que ele pode emitir cinco operaęóes por ciclo. a velo- 
cidade efetiva de relńgio e cinco vezes mais alta. Na discussAo a seguir. focalizaremos a implementaęAo TM3260 
do TriMedia: as diferenęas em relaęao a oulras versóes sao minusculas. 

Urna insliuęao Ifpica ć iluslrada na Figura 8.3. As instruęóes variam de instruęóes padróes de inteiros-padrao de 
8, 16 e 32 bits, passando por instruęóes de ponto flutuante IEEE 754, ate instruęóes de multimfdia paralela. Como con- 
seqiiencia das cinco emissóes |xrr ciclo e dns instruęóes dc multimfdia paralela, o TriMedia e rapido o suficiente para 
decodificar vfdeo digital de urna camcorder em tempo real em tamanho lotal e taxa dc quadros total em software. 

O TriMedia tern urna inemória baseada em bytes. e os registradores de E/S sao mapeados para o espaęo de 
memória. Meias palavras (16 bits) e palavras inteiras (32 bits) devem ser aiinhadas em suas fronteiras naturais. Ela 
pode funcionar como lillle endian ou Wg endian, dependendo de um bit PSW que o sistema operacional pode ajus- 
lar. Esse bit afeta somente o modo com que as operaęóes dc carga c operaęóes de annazenamento transferem dados 
entre memória e registradores. A CPU eontćm urna cache dividida de 8 vias dc conjuntos associativos com tama¬ 
nho de linha dc 64 bytes para a cache de instruęóes, bcm como para a cache de dados. A cache de instruęóes ć dc 
64 KU: a cache de dados e de 16 KB. 

Ilń 128 registradores dc uso geral de 32 bits. O registrador R0 ć travado com valor 0. O regislrador R1 ć Ira- 
vado em 1. Tentar mudar qualquer um deles provoca um ataque cardfaco na CPU. Os 126 registradores restantes 
sAo todos equivalenles cm termos funcionais e podcm ser utilizados para qualquer finalidade. Alćm disso, hA tam- 
bthn quatro registradores de uso espccial dc 32 bits: o contador de programa, a palavra de estado de programa e dois 
registradores relacionados a interrupęóes. Por firn. um registrador de 64 bits conta olnimero dc ciclos de CPU desde 
a ultima restauraęao da CPU. A 300 MHz, o contador leva aproximadamente dois mil anos para dar urna volta com- 
pleta e reiniciar o ciclo de contagem. 


Posięao 1 PosięSo 2 Posięno 3 Poslęgo 4 Operaęan na posięao 5 

Flaura 8.3 \ \ \ \ r - 

Instruęao TriMedia tipica Adlęfto | Deslocamento | Multlmldla | Caircgamenlo | Armazennmenlo 

mostrando cinco operaęóes--- - 

possiyeis. 


InstruęSo 









O Trimedia TM3260 tern 11 unidades funcionais difcrenies para cfetuar operaęóes aritmćlicas, lógicas e dc 
controle dc fluxo (l>cm como uma para conirale de cache quc ntio disculiremos aqui). Elus esliin rclucionadas na 
Tabela 8.1. As duas primeiras colunas d5o o nonie da unidadc e unia hrcvc dcscrięao do quc cla faz. A terceira colo 
na infornia quania& cópias da unidadc exislem cni hardware. A quui1a coluna dii u lutenciu, islo e, quantos ciclos de 
rcldgio cla levu para concluir. Ncssc contexto, vule u pena observar quc iodus as unidades luncioiiais, exccto u uni- 
dudc dc porno flutuunle dc rai/. quudruda/divisao, tein paralclismo. A lutónciu dada na tabela infornia quunto tempo 
falta paru o resultado dc unia opcraęao cslar dispon(vcl, mas utną nova opcraęao pode ser iniciada a cudu ciclo. 
Assim. por cxetnpU> cuda unia das tres instruęóes consecutivas pode conter duas operaęóes dc carregamcnto, o quc 
rcsuitu cni scis carregumenlos cm vartos estagios dc cxecuę&o uo mesmo tempo. 

Por lim, as liltnnas cinco colunas inostram quais posięócs dc instruęao podcm ser ulili/adas por quul unidadc 
funcional. Por exemp!o, operaęócs de comparuęSo dc ponto llutuante devem apareccr somenie nu terceira posięao 
dc urna instruęao. 

A unidadc dc constante (Constante) Ł usada para operaęócs imediatas, tal como carregar cm um registrador 
urn mimero armazenudo na propriu opcraęao. A ALU de intciros (Integer ALU) efelua udięao. subtraęao, as opera- 
ęóes booleanas usuuis. e operaęóes dc enipacotainento/desempacotameiito. O dcslocador (shifter) pode deslocar um 
registrador ciii quah|uer direęóo por um numero espcciticado dc bits. 

A unidadc dc curregamento/armazenamento (laad/start) traz palavras dc memória pani dentro de registrudo- 
res c as cscrcve dc \oliu na memória. O TriMedia e, basicamente, urna CPU RISC aumentada, portunto operaęóes 
normuis sao efetuudas cm registradores c u unidadc de carrcgumcnlo/urma/cnamcnio e usa>lu para accssar mcmii- 
ria. Translerencias podcm ser de 8, Ib ou 32 bits. Instruęóes urilmćlicas e lógicas nao acessam memória. 

A unidadc dc muhiplicaęao efetuu mulliplicaęóes dc intciros c de ponlo flutuantc. As Irćs unidades seguintes 
efetuam, rcspeclivuinenic, udięóes/subtraęóes (FP AI .IJ). comparaęóes (FP cumpmuęao) e rui/ quadradu e divisócs 
(FP sqrt/div) de ponto tlutuante. 

Operaęóes dc dcsvio sao cscculudas pela unidadc de dcsvio ( Branch ). Ud um utraso fixo dc 3 ciclos upós um 
desvio. portanto as nes instruęóes (ale 15 operaęócs) que vein upós um desvin sflo sempre execuiadas, mesmo para 
dcsvios incondicionais. 

Por lim, chegamos as duas unidudes dc multimulia, quc cxccutain as operaęóes cspeciais dc multimldiu. O 
DSP no nomc da unidadc funcional refere-se a Digital Signal Proccssor (proccssador dc sinal digital) quc, nu vcr 
dudę. as operaęócs dc mtiltimidiu suhstiiucm. Mais udiuntc larcmos unia brevc dcscriędo das operaęócs de multimi- 
diu. Um aspecto digno dc nota e quc todas das ulilizam arilmćtica salurada cm vez de aritmćtica de complcinen- 
to de dois usada pclas operaęócs coni intciros. Quando unia opcruędo produz um resultado quc nao pode ser 
cxprcs.su devido u csccsso, em vcz dc gerar unia exceęao ou dar resultado lixo, ć usado o numeru yalido mais pró- 
ximo. Por cxcmplo, com mimeros dc 8 bits seiu sinal. sonuir 130 com 130 da 255. 

Como nem lodu opcraęao pinie aparecer cm u ula posięao, muitas vezcs acontece de urna instnięao nao con¬ 
ter todas as cinco operaęócs poteneiais. Quando urna posięao nao e usada, ela 6 compactadu para miniinizar u 
quunlidadc de espaęo dcsperdięada. Operaęócs que estao presenles ocupam 26, 34 ou 42 bits. Dependendo do 
numeru de operaęócs que realnienie estao presenles, as instruęóes TriMedia variam entre 2 e 28 bytes, incluindo 
alguns cabeęalhos li sos. 

O TriMedia nao faz ycriticaęóes durante a exccuęao para ver se as operaęóes um urna instnięao sao compalt- 
veis. Sc nao forem, cle as executa mesmo assim e obtem a resposla errada. Deixar a vcrilicaęao de fora foi urna 
decisao dclibcrada para poupar tempo c transistores. O Pentium faz verificaę3n cm tempo dc exccuęiio para ter cer- 
le/a de que todas as operaęócs supcrescaiares sao compatfveis, mus ii um custo imenso em termos de complcxidu- 
dc, tempo e transistores. 


Unidades funcionats da TM3260, sua ąuantidade. latencia e as posięoes de instruęao que 
elas usam. 


Unidade 

Descrięao 

D 


1 

r*\ 

o 

o 

nn 

Constante 

Operaęóes imediatas 

s 

1 

X 

X 

X 

X 

X 

ALU de mteiros 

Operaęóes aritmeticas, booleanas. de 32 bits 

5 

1 

X 

X 

X 

X 

X 

Deslacador 

Deslocamentos multibits 

2 

1 

X 

X 

X 

X 

X 

Carregai/Armazenai 

Operaęóes de memória 

2 

3 




X 

X 

Int/PP MUL 

MulUplicaęśo de inteiros e PF de 32 bits 

2 

3 


X 

X 



FP ALU 

Aritmetica de PP 

2 

3 

X 



X 


FP comparaę&o 

Compara PP 

1 

1 



X 



FP sqrt/dtv 

Dnnsao e raiz quadrada em PF 

1 

17 


X 




Desvto 

Controle de fluxo 

3 

3 


X 

X 

X 


DSP ALU 

Antmóuca de mullunidla dual de 16 bits. quAdmpla de 8 bits 

2 

3 

X 


X 


X 

DSP MUL 

Multiphcaęśo de multimfdia dual de 6 bits, ąuódrupla de 8 

2 

3 


X 

X 
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Dcscricao 


() TriMedia evitn essa ilcspcsa passando a carga do cscaionamento para o compilador, quc tom todo o tempo do mimdo 
para otimizar cont ouidado o posicionamento dc operaęóes cm p:Uavras de instruęiio. Por outro lado. se urna operaęao 
prccisar de urna unidade funcional que nao estó disponfvel, a instruęao protelard atć que ela fiqtic disponfvel. 

Como na ltanium-2, as operaęóes da TriMedia sao predicadas. Gada operaęao (com duas pequenas exceęóes) 
especidca unt registrador que ć testado antes de a operaęao ser executada. Se o bit ile ordem haixa do registrador 
estiver marcado (valor 1), a operaęao e executada; caso contrdrio, ela ć saltada. Cada oma das taić) cinco operaęóes 
e predicada individualmente. Unt exemplo de urna operaęao predicada ć 

IF R2 IADD R4. R5 -> R8 

qne tesla R2 e. se o bit de ordem baixa for I, soma R4 com R5 e armazena o resultado cm R8. I Ima operaęfto 
pode ser trwtsformada em incondicional usando R1 (que ć sentpre 1) como o registrador de predicado. Usar RO (que 
ć sempre 0) a transforma em urna tto-op. 

As operaęóes inultimldia do TriMedia podem ser agrupadas nos 15 gmpos rclacionados na Tabela 8.2. Muitas das 
operaęóes envolvem grampeamento (elipping), que especifica um operando e urna faixa e obriga o operamlo a entrar 
na fnixa usando os valores ntais baixo ou mais alto para operandos que caem fora da faixa. O grampeamento pode ser 
leito ent operandos de 8,16 ou 32 bils. Por exemplo. quando o recorte e realizado dentro ile urna faixa de 0 a 255 sobre 
40 e 340, os resultados gnnnpeados sao 40 e 255, respectivamente. O grupo Clip efetua operaęóes de recorte. 

Os quatro grupos seguintes da Tabela 8.2 efetuam a operaęao indicada com operandos de yarios tamanhos. 
grampeando os resultados para ajustd-los a urna faixa especifica. O grupo Min. max cxamina dois registradores e 
acha o maior e o menor valor para cada byte. De modo semelhantc, o grupo Compare considera dois registradores 
como quatro pares de bytes e compara cada par. 

Operaęóes multimidia raramente sao efetuadas com inteiros de 32 bils porquc u maioria das imagens e com- 
posta de pixels RGB com valores de 8 bits para cada urna das cores vennelha. verde e azul. yuando urna imagem 
estii sendo processada — por cxemplo. comprimida —, ela 6 normalmente representada por trCs componenles. um 
para cada cor (espaęo RGB) ou por unia forma equivalente em termos lógicos (espaęo YUV, que serii discutido mais 
adianle ncsle capitulo). De qualquer modo. tnuito processamento i executado cm arranjos retangulares que eontem 
inteiros de 8 bits sent sinal. 

O TriMedia tern um grandę numero de operaęóes projetadas especificamente para o processamento eficienle 
de matrizes de inteiros de 8 bits sem sinal. Conto um cxemplo simples. considere o canto superior esquerdo de urna 
matriz de valores de 8 bits armazenados cm memória (big endian), como ilustra a Figura 8.4(a). O bloco 4X4 mos- 
trado nesse canto eontem 16 valores de 8 bits rotulados de A atć P. Suponha, por exemplo, que a imagem necessi- 
ta ser transposta, para prodnzir a Figura 8.4(b). Como essa larefa deve ser realizada? Um modo de fazer a transpo- 
sięao e usar 12 operaęóes. cada qual carrega um byte em um registrador diferente, seguidas de mais 12 operaęóes. 
cada qual armazena um byle em sua loeali/aęao corTeta. (Importante observar que os quatm bytes na diagonal nSo 
sao movidos na transposięao.) O problemu dessa abordagem ć que ela requer 24 operaęóes (longas e lentas) quc 
referenciatn a memória. 

Urna abordagem altemaliva 6 comeęar com quatro operaęóes. cada qual carrcga urna palavra dentro de quatro 
registradores diferentes, R2 a R5. como mostra a Figura 8.4(c). F.nt3o. as quatro palavras produzidas sao montiulas 
por operaęóes de mascaramenio e deslocarnento para conseguir a salda desejada. como mostra a Figura 8.4(d). 

Taiiaia 8.2 Principais gmpos de operaęóes que vóm com o TriMedia. 


Clip 

DSP valor absoluto 

DSP add 

DSP subtraet 

DSP multiply 

Min. max 

Compare 

Shift 

Sum q( products 
Merge, pack, swap 
Byte quad aveiages 
Byte averages 
Byte multiplies 
Motion estimation 
Miscellaneous 


Grampeia 4 bytes ou 2 meias-palavras 

Valor grampeado, com Sinal, tornado em módulo 

Adięflo grampeada. com sinal 

Subtraęao grampeada, com sinal 

Multiplicaęao grampeada, com sinal 

Obtem rninimo ou mśximo de pares de quatro bytes 

Compara dois registradores bit por bit 

Desloca um par de operandos de 16 bits 

Soma com sinal de produtos de 8 ou 16 bits 

ManipulaęAo de bytes e meias-palavras 

Mśdia quadrupla. sem sinal, byte pot byte 

Medias de quatro elementos, sem sinal, byte por byte 

Multiplicaę3o, sem sinal, de 8 bits 

Soma sem sinal de valores absolutos de diferenęas de 8 bits com sinal 
Outras operaęóes aritmeticas 
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Por filii, essas pulavras sao urmazenadus na memória. Embora esse modo de fa/er a transposięao reduza o mimem 
de referćncius ii memória de 24 para 8, o muscuramento e o desloeumenio sao caros pot causa das imiilas operaęóes 
rcijucridus paru exuuir e inserir cada byle na posiędo correta. 

(.) I riMediu proporciona uina soluęau melhor do que essas duus. lila coineęa trazcndo as quulru palavras para 
regislradores. Todavia, em ve/. de construir u saldu usando mascuramenlo e desloeumenio. sao utili/udas operaęóes 
especiais que exlraem e inserem byles em regislradores paru conslruir a salda. O resulludo e que, cum oito referfin 
cias a memória e oito dessas operaęóes especiais de multimfdia. pode-se realizar a transposięao. Em primeiro lugar, 
o eódigo contein urna operaęao com duas operaęóes de earregainenlo nas posięóes 4 e 5. respectivamenle. paru car- 
regar palavras em R2 e R3, seguida por urna outra operaęao como essa paia carregar R4 e R5. As instruęócs que con- 
tem essas operaęóes podern usar as posiędes 1. 2 e 3 para outras finalidudes. Quando todas as palavras foram car- 
regudas. as oito operaęóes especiais de multimldia pudem ser empacoladas em duas instruęócs para construir u 
saldu, seguidus poi duus operaęóes para arma/.end-las. No total, sao necessarias apenas seis instruęócs, e 14 das 30 
posięóes nessus instruęócs tkam disponlveis para outras operaęóes. Na verdade, todo o trabulho pode ser realizado 
com o equivulente efelivo a cerca de trds instruęóes. Outras operaęóes de multimidia sao iguulmente etlcienles. 

Emie essas operaęóes poderosas e as cinco posięóes de emissao por instruęao, o TriMeilia e muito eficientc 
para efetuar os tipos de calculos necessarios em processamento de multimldia. 

8.1.2 Multithreading no chip 

lodas as CPlis modcmas, com paralelismo (pipeline). tern um problemu inerente: quundo urna referencja a 
memória encontra urna ausencia das cachcs de nlvel 1 e nfvcl 2, ha unia longa espera ale i|ue u palavra requisituda 
te sua linha de caclte associada) sejatn carregudas na cuchę, portanto o pipeline póra. Unia abordugem para lidar 
com essa siluuęao, denominuda multithreading no chip. permite que a CPU gerencie mtiltiplos threads de conlro- 
le uo me sino tempo em urna tcuiativa de muscarar essas proteluęóes. Em suma, se o threud I esliver bloqueado, a 
CPU ainda tern urna t bance de executar o ilu cud 2, de modo a manier o hardware tolalmenle ocupado. 

Emhoru u ideia hasica seju ruzoavelincnte simples, cxistetn multiplas variantes, que examinureinos agora. A 
primeiru abordugem multithreading de granulaęao lina. e ilustruda nu Figura 8.3 para unia CPU que tent a capu* 
cidudc de einitir unia instruęao por ciclo de relógio. Na Figura 8.5 (a)-(c), ventos tres threads. A, B e C, para 12 
ciclos de maquina. Durante o primeiro ciclo, o threud A executa a instruęao Al. Essa instruęao conclui em um ciclo, 
portanto. no segundo ciclo. a instruęao A2 ć iniciada. 

Inlchzmentc, essa instnięiio encontra urna ausencia de cache de nlvel 1, portanto, dois ciclos sao desperdięados 
euquanlo u pulus ra necessdria e buscada nu cuchę de nfvel 2. O threud continua no ciclo 5. De modo semclliante, os 
threads He C tumbem protclam ocasionalmente, como iluslrado na figura. Nesse ntodelo, se urna instruęao protelur, 
as instruęóes subseqilenies nao podern ser emitidas. F. claro que, mesmo com urna tabela de esculonarncnto niais 
sofislicada, as vez.es (todem ser emitidas novus instruęóes, mas, nesta discussao, vamos ignorar lal possibilidade. 

O multithreading dc granulaęóo lina muscaru as proteluęóes cxecutundo os threads segundo urna polllica de 
aliernancia circulur, com um threud diferente em ciclos consecutivos, como mostru a Figura 8.5(d). Quundo chega 
o quarto ciclo, a operaęao de memória iniciada em Al foi cunclulda, portanto u instruęao A2 pode ser executada, 
ainda quc necessite do resulludo de Al. Nesse caso, u protelaęao maxima ć dois ciclos, portanto, com trfis threads, 
a operaęao proteluda scntpre ć conclulda a tempo. Se uina protelaęao de memória demorusse quutro ciclos, preci- 
suriamos de quutro threads para garantir opcraęóo continua e assint por dianie. 

Urna vez que threads diferentes nada tćm u ver um com o outro, cada um precisa de seu próprio conjunto de 
rcgistradores. Quando urna instruęao 6 emitida, ć preciso incluir, com ela, um ponteiro para seu conjunto ile registra- 
dures, dc modo quc, se um regislrudor for rcfercnciudo, o hardware saberó qual conjunto de regislradores usar. 


Muura 8 S 

(a|-|c| Tres thieads Os 
reiangulos vazios tndicam 
que o Uuead parou 
esperando poi ineniuna. 
|d) Multithreading du 
granulaęao fina. 

|e| Multithreading da 
granulaęao grossa _ 
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Poi eonseqO@ncia, o mimem mdximo de threads que podem ser executados de uma vez só ć fixndo na ocasiao era 
que o chip 6 projelado. 

Operaęóes de memória n3o sńo a unica razSo para protelaęSo. As vezes uma instruęao precisa ile um resulta- 
do calculado por uma instruęao anterior que ainda nSo foi conclufda. As vezes uma instruęiio nao pode iniciar por- 
que ela vem após um desvio condicional cuja direęSo ainda nao e conhecida. Em geral, se o pipeline tiver k est;i 
gios, mas houver no nunimo k threads pani fazer altemSncia circular, nunca haverd tnais de uma instruęao por thread 
no pipeline a qualqucr momento. portanto nao pinie iKorrer ncnhum conflito. Nessa situaęilo. a CPU pode executar 
9 velocidnde total, sem nunca ficar ociosa. 

6 claro que pode nao havcr tantos threads disponfveis quantos sao os estdgios do pipeline. portanto alguns pro- 
jetistas preferem uma abordagein diferente. conhecida como multithreading dc granulnęiio grossa. ilustrada na 
Figura 8.5(e). Nessc caso, o thread A inicia e continua a emilir instruęóes ale protclar. desperdięando um ciclo. 
Nesse ponto ocorre uma troca c Iii ć executado. Visto que a primeira instruęao do thread fi protela. acontcce uma 
outra troca dc thread c Cl ć execulado no ciclo 6. Uma vez que se perde um ciclo sempre que uma instruęao pro¬ 
tela. o multithreading de granulaęao gmssa 6 potencialmente menos eficiente do que multithreading de gruuulaęilo 
lina, mas tcm a grandę vantagem dc prccisar de um mimem muito menor dc threads para manter a CPU ocupada. 
Em situaęóes em que lid um mimem insuficiente de threads ativos, para garantir que serd encontrado um quc pode 
ser cxecutado, o multithreading de granulaędo grossa funciona melhor. 

Embora tenhamos demonstrado quc o multithreading de granulaęao grossa troca threads quamlo lid uma prote- 
laędo, essa udo e a unica opędo. Uma outra possibilidade ć trocar imediatamenle em qualquer instmędo que poderia 
causar uma prolelaęao. lal como uma instruęao de carrcgamento, armazenamento ou desvio. antes mesmo de desco- 
brir se ela realmente causa urna protelaędo. Essa ultima estratćgia permile que uma troca ocorra mais cedo (tdo logo 
a instruęao seja decodificada) e pode possibilitar evitar ciclos mortos. Na verdade, ela estd dizendo: “Execute ale 
acharque poderia haver um problema. entdo troque. só por precauęao". Isso faz com que o multithreading de granu¬ 
laęao grossa fique mais parecido com o multithreading de granulaędo lina, com suas trocas freqiicntes. 

Seja qual for o lipo de multithreading usado. ć preciso ter algum meio de monitorar qual operaęao pertence a 
qual thread. Com o multithreading de granulaęao fina, a (lnica possibilidade seria <5 anexar um identificador dc 
thread a cada operaęao, de modo que sua identidade fique clara ao percorrcr o pipeline. Com o multithreading de 
granulaęao grossa, existe uma outra possibilidade: ao trocar threads, liinpe o pipeline e só entao inicie o próximo 
thread. Desse modo. somente um thread por vez estd no pipeline e sua identidade nunca ć thmdosa. fi claro quc 
dcixar o pipeline funcionar no vazio durante uma troca de thread só faz sentido se as trocas de threads ocorrerem 
em intervalos muito mais longos do que o tempo que demora para esvaziar o pipeline. 

Atć aqui consideramos que a CPU só pode emitir uma (inica instmędo por ciclo. Todavia, como jd vimos, 
CPUs modemas padem emilir miiltiplas instruęóes por ciclo. Na Figura 8.6 consideramos que a CPU pode emitir 
duas instruęóes por ciclo de relógio. mas mantivcmos a regra que diz que, quando uma instruęiio protela, as instru- 
ęóes subseqUentes ndo podem ser emitidas. Na Figura 8.6(a) vemos como funciona o multithreading de granulaęao 
lina com uma CPU superescalar de emissdo dual. Para o thread A. as duas primciras instruęóes podem ser emitidas 
no primeim ciclo, nias para o tliread 11 eneonirainos iniediatamente um problema no próximo ciclo. portanto somen- 
tc uma instruęao pode ser cmitida e assiin por dianie. 

Na Figura 8.6(b) vemos como funciona o multithreading de granulaęao grossa com uma CPU dc cmissao dual, 
mas agora com um escatonador estdtico que nao introduz um ciclo morto após uma instruęao quc protela. 
Basicamente. os threads sao executados um por vez, sendo que a CPU emite duas instruęóes por thread aić alingir 
um que protela, ponto em que troca para o próximo thread no infcio do ciclo seguinte. 

Com CPUs superescalares hd um terceiro modo possfvel de fazer multithreading. denominado multithreading 
simultaneo. ilustrado na Figura 8.6(c). Essa abordagem pode ser considerada como um refinamento do multithrea¬ 
ding de granulaęao grossa, na qual um dnico thread tern permissao de emitir duas instruęóes por ciclo pelo tempo 
que puder, mas. quando protelar. as instruęóes sao tomadas imediatmnente do próximo thread na seqti(?ncia. para 
manier a CPU totalmente ocupada. O multithreading simull3neo tambćni pode ajudar a manter ocupadas lodas as 
unidades funcionais. Quando uma instruęao nao puder ser inieiada porque uma unidade funciona! de que ela neces- 
sita esta ocupada, pode-se escolher uma instruęao de um thread diferente no lugar daquela Nessa figura estainos 
considerando quc BU protela no ciclo 11, portanto C7 6 inieiada no ciclo 12. 

Se quiset mais informaęóes sobre multithreading. consulte Dean. 2004; Kalla et al.. 2(H)4; c Kapil et al., 2004. 
A combinaęilo de multithreading com execuęio especulativa 6 esaminada em Solu e Roth (2001). 
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Hiperthreading no Pentium 4 

Agora quc ja \ imos o mullithreading no campo abstralo, vamos considcrur um cxeniplo prutico dc multithreu- 
ding: a CPU Pentium 4. Depois que o Pentium 4 jd eslava em produęKo, os urquitetos da Intel procuraram vdrios 
meios de aumentur suu vclocidade sem mudar a intcrface de programadores. algo que jumais seria uceilo. 
Kupiduincnte surgirum cinco modus: 

1. Aumentar u velocidade de relógio. 

2 . Colocar duas ('Plis cm um chip. 

3. Adicionar umdades funcionais. 

4 . Aumentar o comprimento do pipeline. 

s. Usur mulliihreadiug. 

Um modo ńbvio de inclhorar o desempenho ć aumentar a velocidade de relógio sem allerur mais nada. Isso e 
algo relativaruenu direto e hem entendido. porianlo cada novo chip lanęado em geral ć um pouco mais rapido do 
quc sen predeeessor. lutclizmcnlc, um relógio mais rapido tambćm tern duas desvantagcns principais quc limitam 
o tanio dc aumenio quc pode ser tolerado. Em primeiro lugar, um relógio mais rapido usa mais energia, o que e um 
enorme problemu paru notchooks c outros dispositivos quc tiincionam cum bateria. Em segundo lugar, u entrada dc 
energia cxtra significa quc o chip fica mais queute e quc ha mais calor para dissipar. 

Colocar duas CPUs cm um chip ć relativamente direto, mas cquivalc a qua.se duplicur u lircu do chip sc cada 
urna tivcr suas proprias cuchcs c, por isso, reduz por um futor de dois o numeru de chips por IHuiina. o que, cm 
cssćncia, dobra o custo dc fabricaęao por unidadc. Se os dois chips coinpartilhurcm urna cache em comurn, do 
mesmo tamanho da origiual. u drea do chip n5o e dohrada, mas o tamanho da cache por (’PU ć dividido ao mcio. o 
quc redu/ o desempenho. Alćm disso, enquanlo uplicaęócs dc scrvidores de alto desempenho muilas vezes poiłem 
ulilizar totahnente multiplas CPUs, ncui todas as uplicuv'ócs para computudores de mesa tern puralclismo inerente 
suficiente para justificar duas CPUs eontpletas. 

Adicionar mais unidades funcionais tambein ć ruzoavelmente lacil. mas ć importante conseguir u equilfbiio 
corrcto. Niio udiaiilu muito ter dez ALUs se o chip ii incupu/ de alimentar instnięfles no pipeline com rapide/ sufi¬ 
ciente para mantę las todas ocupadas. 

Um pipeline mais lougo, com mais estagios, cada um reali/ando urna poręao ntenur do trabalho em um perio¬ 
du de tempo mais curto tambein eleva o desempenho, mas tambein aumenta os efeitos negulivox das previsóes erra- 
dus de desvios, ausćucias da cache, interrupęóes e outros fatores quc inlerroinpem o tluxo nonnal no pipeline. Alćm 
do mais, para o tolul uproveitamento de um pipeline mais longo, a velocidade de relógio tern de ser aumentuda, o 
que significa que mais energia e cousumida e mais calor ć produzido. 

Por lim, pode se adicionar multidrreading. Seu valor esld em fuzer com que um segundo thread utilize hard¬ 
ware que, nao fosse por isso, ticariu ahandonado. Após algumas experimentaęóes, ficou ciuro que um aumenio de 
5V< na area do chip para supoile de mullithreading resultaria em ganho de 25% em desempenho para muilas upli- 
caęfles, o que sigmficuva urna boa escolha. A primeiru CPU com mullithreading da Intel foi u Xcon em 2002, porem, 
mais larde o muliithicading foi adicionado ao Pentium 4, a part i r da versao dc 5.06 Ci Hz e continuundo com ver- 
sóes mais rapidas do processador Pentium. A Intel deu o nome de hiperthreading a implementaędo de multithreu 
ding usada no Pentium 4. 

A ideiu hśsica e pennitir que dois threads (ou possivelmente proeessos, urna vez que a CPU nio pode dislin- 
guir entre o que e um thread e o que e um processo) executem ao mesmo tempo. Pura o sisicinu operacional, o chip 
Pentium 4 com hiperthreading parccc um processador dual no qual amhas as CPUs compurtilham em comum urna 
cache e u memóriu principal. O sistema operacional escalona os threads independentemente. Se duas aplicuyóes 
estiverem executando ao mesmo tempo, o sistema operacional pode executar ambos ao mesmo tempo. Por exem- 
plo, se um daemon de cnrreio esłiver enviando ou recebendo e-mail no segundo piano enquanto um usudrio estd 
interagindo com ulguin programu no primeiro piano, o progruma daemon e o programu usudrio pudem executur em 
paralelo, como se liouvesse duas CPUs disponiveis. 

Um software de uplicaydo projetado para executur como threads multiplos pode usur umbas as CPUs virtuais. 
Por cxemp!o, programas de cdiędo de vfdeo usualinenle permitem que os usudrios especifiquem certos filtros para 
aplicar a cada quadro dentro dc algum limite. Esscs filtros pudem modificar o brilho. o contrasle, o equilibrio de 
cores c outras propriedades de cada quadro. Entao, o programu pode designar urna CPU pura processar os quadros 
de mimeros pares e a outra CPU para processar os quadros de numeros impares e as duas pudem executar complc- 
tameute indcperulcnics urna da outra. 

Urna vez que dois threads compurtilham todos os recursos de hardware, ć preciso urna estratćgin para geren- 
ciar o compartilhamenio, A Intel identificou ipiatro estratćgias uteis para coinpartilhamento de recursos em eonjun- 
lo com hiperthreading: duplicaędo de recursos, partięao de recursos, compartilhamenio limitado e compartilhamen- 
to total. Varnos esludar cada urna delas por vez. 

Para come^ur, ulguns recursos sao duplicados só pura fuzer o threuding. Por exemplo, visto quc cuda 
thread tern seu próprio tluxo de controle, e preciso ucrescentar um segundo contador de programu. Alćm 
disso, u tabela que rnupetu os registrudores de urquiteturu (Ł'AX, LHX etc.) para registradores fisicos tambćm 
tern dc ser duplicada, ussim como o controlador de interrupęao, ja que os threads pudem ser interrompulos 
independentemente. 
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Hm scguida temus a partiami de recursos compartilhados. na qual os recursos do hardware sBo divididos 
rigidamcnle cnlrc os (hrcads. Por cxemplo. su a CPU livcr unia fila enire dois cstBgios de pipcline funcional. mela- 
de das posięóes poderia ser dcdicuda ao (hread 1 c a oulra melade ao thread 2. A partięBo ć lacil de exccutar. nilo 
lem sobrccarga e impcdc que os threads intcrriram uns com os oulros. Se lodos os'recursos sao repartidos, na ver- 
dade temos duas CPUs separadas. Como dcsvanlagcm. e fdcil acontecer que. em algum ponto. urn iliread nao este- 
ja usaiulo alguns de scus recursos dc que urn mitro necessita, porćm estii proibido de acessar. Por conseguinte. recur¬ 
sos quc poderiani ter sido usados produtivamcnle ficam ociosos. 

O oposto do compartilhamcnto por partięBo e o comparfilhamento total de recursos (Juando csse esquema 
ć usado, qualquer ttircad pode adquirir quaisqucr recursos que precisar, conformc a polftica do primeiro a chegar. 
primeiro a ser atendido. Contudo, imagine urn thread riSpido que consiste primariamente de adięóes c subtrnęóes e 
urn thread lento que consiste primariamente de inultiplicaęóes e divisóes. Se as instruęóes forem buscadas na menió- 
ria com maior rapidcz do que as mnltiplicaęóes e divisóes podcm ser efetuadas, a pravisSo de instruęóes buscadas 
para o thread lento e enfileiradas, mas ainda nao alimentadas no pipcline. cresccrd com o tempo. F.m urn dado ins- 
lante. essa provisao ocupard toda u fila dc instruęóes, o quc ocasiona a parada do thread por Palta dc cspaęo na fila 
de instruęóes. O compartilhamcnto total dc recursos resolve o problema de um recurso quc lica ocioso enquanlo 
outro Iliread o qucr. mas cria um novo problema: um thread poderia tomar para si urna quantidade tiio grandę de 
recursos que provocaria a reduęao da velocidadc do outro ou o faria parar tolalmente. 

Um esquema intennedidrio 6 o compnrtilhamentu limitado. no qual um thread pode adquirir recursos dina- 
micamente (nao hd partięocs fixas). mas somentc atć um tndximo. Quando hd recursos duplicados. essa abordagem 
pennite llcxihilidade sem o perigo de um thread morrer d mingua devido a sua incapacidade dc adquirir urna parte 
do recurso. Por excmplo, sc nenhum thread puder adquirir mais do que 3/4 da fila de instruęóes. nao importa o que 
o thread lento faęa, o thread rdpido scuipre poderd executar. 

O hipertlireading do Pentium 4 usa estrategias diferentes para recursos diferentes na tentativa de enfrentar os 
ydrios problcmas que acahamos dc citar. A duplicaęao ć osada para recursos que cada Iliread requer o tempo todo. 
como o contador de piogratna. o mapa dc rcgislradorcs e o controladur dc interrupęao. Duplicar esses recursos 
aumenta a area do chip em apenas 3%, um preęo modesto a pagar pelo multithreading. Recursos disponfccis com 
lal abundfincia que lisio hd perigo dc um Unico thread capturar lodos eles. tais como linhas de radie, ssio total men- 
te compartilhados de um modo dinamico. Por outro lado, recursos que controlam a operaęao do pipcline, lais como 
as vdria$ fdas denlro do pipcline, sBo repartidos e cada thread recebc metade das posięóes. O pipcline principal da 
microarquitetura Nctburst usado no Pentium 4 e ilustrado na Figura 8.7; os retflnguios brancos e cin/.as imlicam 
como os recursos siki alocados entre os threads brancos e cinzas; 

Nessa figura podemos vcr que todas as lilas sao rcpiulidas. sendo que metade das posięóes em cada fila ć rcscr- 
vada para cada thread. Nessa partięBo, nenhum thread pode estrangular um outro. O alocador e renomcador de regis 
trador tambćrn e repartido. O cscalonador e compartilhado dinamicamente, mas com um limitc. para impedir quc qual 
quer dos threads redanie para si trułaś as posięóes. Os estAgios restantes do pipcline sito tolalmente compartilhados. 

Rntrelanto. nem tudo sao flores no multithreading — tamhein hd urna desvantagcm. Rmbora o particionamen- 
lo seja barnto, o compartilhamcnto dinSmico de qualqucr recurso c. cm especial. com um limitc sobre quanto um 
thread pode pegar. requer contabilidade durante a exccuędo para monilorar a utili/.aęao. Alem disso, pudem surgir 
situaęóes nas quais programas funcionam muito piór com multithreading do que sem cle. Por excmplo, imagine quc 
temos dois threads e que cada um deles prccisa dc 3/4 da cachc para funcionar bem. Sc eseculados em separado. 
cada um funciona hem e encontra poucas ausóncias da cachc (caras). Se executados juntos. cada um enconlra gran¬ 
dę numeru de ausóncias da cachc e o resultado lfquido ć bem piór do quc se nilo houvesse multithreading. 

Mais informaęóes sobre multithreading no Pentium 4 siło dadas em Gerber e Binstock. 2004; Koufaty e Marr. 
2(X)3: c Tuck c Tullsen. 2003. 

8.1.3 Multiprocessadores com um unico chip 

Kmbora o multithreading rcsulle em significativos gnnhos em desempenho por um custo modesto. para algu 
mas aplicaęóes 6 preciso urn ganho em desempenho muito maior do que o multithreading pode oferecer. Para con- 
seguir esse deserri|u:nho estao sendo desenvolvidos chips multiprrH;essadores. Ma duas areas dc interesse para esses 
chips quc contem duas ou niais CPUs; servidorcs dc alta tecnologia e equipamcntos cletrónicos dc consumo. A 
seguir vamos fazer um breve estudo de cada unia delas. 
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Multiprocessadores homogeneos em um chip 

Com os avanęos na lecnologiu VLSI, agora 6 possivel colocar duas ou mais CPlIs dc grandę capacidadc cm 
um unico chip. Visto que essas CPUs sempre compartilham as mesinas cache de nivel I, cache de nive! 2 e memó- 
ria principal, elas se qualilicam como um mulliprocessador, como discuiimos no Capttulo 2. Urna iirca de aplica- 
ęfio lipica-e um grandę conjunio de hospedeiros Web (sewerfarm.) composio de rnuiios servidores. Ao colocar duas 
CPUs na tnesma caixa, couipariilliundo 1180 somente memória, mas lambórn discos c intcrfaces de rede, niuiias 
ve/es podc-se dobrar o desempenho do servidor sem dobrar o cuslo (portjue, mesmo ao dobro do preęo, o chip de 
CPU ć apenas umu fraęao do custo toial do sistema). 

Ha dois projclos predominantes para multiprocessadores de pequena escala cm um unico chip. No primeiro, 
mostrado na Figura 8 . 8 (a), na realidade ha somente um chip, mas ele tent um segundo pipeline, o que pode dobrar 
a taxa de execuęau de instruęóes. No segundo, mostrado na Figura 8 . 8 (b), ha nucleos separados 110 chip e catla um 
contem uma CPU completa. U 111 uucleo e um grandę circuito, tal como urna CPU, controlador de K/S ou cache, que 
pode ser colocado em um chip como um módido, usualrnenle ao lado de outros nucleos. 

O primeiro projeto permite que recursos, tais como unidades funcionais, sejam comparlilliados cntre os pro- 
cessadores, o que perniiie que uma CPU use recursos que a outra ndo necessita. Por outro lado, essa abordagem 
requer um novo projeto para o chip e nao funciona muito bem para mais de duas CPUs. Por comparaęao, colocar 
dois ou mais nucleos ile CPU no mesmo chip e algo relativamenle facil de fazer. 

Disculireinus multiprocessadores mais adiante neste capttulo. Emboru o foco dessa discussao estard mais em 
multiprocessadores construidos a partir de chips com uma unica CPU, grandę parte dela tambćm pode ser aplicada 
u chips com multiplas CPUs. 

Multiprocessadores heterogeneos em um chip 

Uma drea de aplicaęao completamente diferente que utiliza multiprocessadores em um unico chip 6 a de siste- 
mas embutidos, em especial em equipamentos eletrónicos audiovisuais de consumo, como aparelhos dc tclcvisao, 
reprodutores de 1)VD, emneorders, eonsoles de jogos, telefones celulares e assim por dianie. Esses sistemas tem 
requisitos exigentes de desempenho e restrięóes rigorosas. Embora esses dispositivos pareęam diferenles, na realida¬ 
de, mais e mais ileles sao, simplesmeute, pequenos computadores com uma ou mais CPUs, mentórias, controladores 
de E/S e alguns dispositivos de E/S especiais. Um lelefone celular, por exemplo, 6 um mero PC com uma CPU, 
memória, leclado diminuto, microfone, alto-falante e uma conexao de rede sem fio, dentro de um pequeno pacote. 

Considcre, como exemplo, um aparelho portali! de DVD. 0 computador que esta dentro dele tem de manipu- 
lar as seguintes lunęóes: 

1. Controle de um servomecanismo barato, nSo confidvel, para posicionamento do cabeęole (anguló de visao 
de 360 graus). 

2 . Conversao de unalógico para digilal. 

3 . Correędo de erros. 

4. DecriptaęSo e gerenciamento de direitos digitais. 

s. DescompressSo de v(deo MPliG-2. 

6 . Descompressao de dudio. 

7 . Codificuęao da salda para aparelhos de televisao NTSC, PAL ou SECAM. 

Esse irabalhu devc ser realizado sob rfgidas restrięfies de tempo real, qualidade de servięo, energia, dissipuędo 
de calor, tumaniło peso e preęo. 

Discos dc DVD contem uma longa espiral na quul estao as iniormaęóes, como ilustrado na Figura 2.21 (para 
um CD). O cabeęole de leitura deve percorrer a espiral com precisSo 8 rnedida que o disco gira. O preęo ć manlido 
baixo pcla ulilizaęao de um projeto inecanico relativamente simples e pelo rfgido controle da posięao do cabeęole 
em softwaie. O sinal que sai do cabeęote e um sinal analógico que deve ser convertido paru forma digital antes de 
ser processado. Após ser digilalizado, ć preciso extensa correęao de erros porque DVDs s3o prensados e contem 
muilos erros, que devem ser corrigidos em software. O video e comprimido usando o padrao MPEG-2, que requer 
cńlculos complexos para a descompressao (parecidos com transformadas de Fourier). O dudio e comprimido usan¬ 
do um modelo psicoacustico que tamhem requer cdlculos softsticados para descompressdo. Por lim, dudio e vfdeo 
lśni de ser entregues em unia forma adequada para reproduęao em aparelhos de televisao NTSC, PAL ou SECAM, 
dependemlo do pais para o qual o aparelho de DVD serd despachado. Nao e nenhuma surpresa que seja impossivel 
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fazer Unio cssc irahnlho eni tempo real, cni software, com urna CPU baratn de uso geral. Nesse caso. prccisamos de 
uin multiprocessador heterogfineo c)ue contenha multiplos tukleos, cada um cspecializado para urna tarela parlieu- 
lar. Um exemplo de aparelho de DVD ć dado na Figura 8.9. 

As funęOes dos nucleos na Figura 8.9 s3o lodas diferentcs, e eada unia ć projetada com cuidado para ser extre- 
mamente boa no quc faz pelo preyo mais baixo possfvel. Por exemplo. o v(deo de DVL) ć comprimido usando um 
csquema conhecido como MPEG-2 (que qucr dizer Motion Picture Experts Group — grupo dc espedalfatas em 
filnies que o inventou) O sistema consislc cm dividir cada quadro em blocos de pixels e fazer uma complcxa 
transformato cm cada um. Um quadro pode consistir inleiramente em blocos iransfonnados on pode cspcciflcar 
quc um certo bloco ć igual a um mitro ja encontrado no quadro anterior. cxceto por um par de piscls que foram alte- 
rados. porćm localizado com um afastamento de (delta t. delta y) cm relaęao ii sua pnsięSo conente. Ftizcr esse c.ll- 
culo em software ć extremamente lento, mas ć possfvel construir uma mdquina dc decodificaęHn MPFG-2 que pode 
cletuó-lo em hardware com bustante rapidez. De modo semelhante, a decodificat*’ de Audio e a rccodificaęilo dc 
sinal de audio-v(deocomposto para ficarde acordo com um dos padrócs mundiais de televis8o podem ser mais hem 
cxccutadas fair processadorcs dedicados cm hardware. Essas obscoaęóes nfu> lardaram a gerar chips multipioecs- 
sadores heterogćncos que conteui multiplos nucleos projetados cspccificamenle para aplica<;óes audiovisuais. 
Contudo, como o processador dc controle e uma CPU program.1vel de uso geral. o chip multiprocessador tambćrn 
pode ser usado em outras aplicnęóes semelliantcs. como um gravador de DVD. 

Um outro dispositivo que requer um multiprocessador heterogćnco ć a móquina que estń dentro de um tcle- 
fone celular avanv'ado. Os atuais lis vezcs tćin maquinas fotogrttficas. videoc:lmcras, maquiuas dc jogos. brow- 
sers Web. leitores de e-ntail c rcceptores dc riidio por satelitę. que usam a tecnologia ile telefonia celular 
(CDMA ou GSM) ou Internet sem fio (IEEE 802.11, tambćrn chamada WiFi): os futuros podem incluir todos 
esses. A medida que os dispositivos adquircnt cada vcz mais funcionalidade, com relógios i|uc se transformato 
cm mapas baseados em GPS e óculos quc se tnmsfomtam cm rddios, a ncccssidade de multiprocessadores hete- 
rogćneos só crescerl 

Dentro em pouco os chips terao 500 milhOes de transistores. Chips como esses sao grandes demais para que 
se projete uma porta e um fio por vez. O csforęo humano requerido faria com que os chips ficassem obsoletos 
quando fossem terminados. A ónica maneira vidvcl ć usar nucleos (em essfincia, bibliotecas) que contenham sub- 
conjuntos razoavclmente grandes e entao coloca-los e interconecta-los no chip conformc neccssario, Entilo, os 
projetistas tern de delerminar qual nucleo de CPU usar para o processador dc controle c qunis processadorcs de 
uso especial aeresccntar para ajudó-lo. Atribuir mais carga ao software que exccuta no processador dc controle 
faz o sistema ficar mais lento mas rcsulta em um chip rnenor (e mais barato). Ter varios processadores de uso 
especial para processamento de iiudio e vfdeo ocupa drea do chip. aumenta o custo. mas resulta em desempenhos 
mais altos e uma taxa de rclogio mais baixa, o que significa menor consumo de energia e menos dissipaęilo de 
calor. Assim, os projetistas de chips enfrentam cada vez mais esses compromissos macroscópicos em vez dc se 
preocupar com onde vao colocar cada transistor. 

Aplicaęóes audiovisuais fazem uso muito intenso de dados. Enormcs quantidades de dados tern de ser proces- 
sadas rapidamente, portanto. o norma! ć que 50% a 75% da drea do chip sao dedicados ii memória sob uma forma 
ou outra, e a quantidade estd crescendo. Ncste caso. as questfles de projeto stlo numerosas. Quantos nfveis dc caehe 
devcm ser usados? A(s) cache(s) devc(m) ser dividida(s) ou unificuda(s)? Qual devera ser o tumanho de cada cache? 
Qual devera ser u rapidez dc cada uma? Um pouco da memória tambćrn deve ir para o chip? Ela devc ser SRAM 
ou SDRAM? As respostas para cada uma dessas perguntaj tćm itnporlantes iinplicaęóes para o desempenho, con- 
sutno dc euergia e dissipai^do dc calor do chip. 

Alern do projeto de processadores c sistema dc memória, uma outra questao de comiderdscl conscqtlćncia ć o 
sistema de coinunicai^ao — como todos os nucleos se comunicam um com o outro? No caso de sistemas pequenos. 
um unico barramento usualmcnte dara conta do negócio, mas para sistemas maiores ele logo se toma um gargalo. 
Muitas vezes o problema pode ser resolvido migrando para multiplos barramentos ou. possivelmcnte. para um anel 
que vai de nucleo para nucleo. Nesse ultimo caso a arbitra^no ć conduzida passando um pequeno pacotc denominado 
uma permissiio ao redor do anel. Para transmitir, em primeiro lugar um nucleo deve capturar a permissflo. Ao concluir, 
cle devolve a pertnissao ao anel. de modo que ela possa continuar circulando. Esse protocolo cviia colisóes no anel. 

Como excmplo de uma interconexao no chip. considere o CoreConnect da IBM. ilustrado na Figura 8.10. F. 
unia arquitetura para conectar nucleos em um multiprocessador heterogcnco com um ónico chip. Trata-se de um 
projeto de sistema em um unico chip especialmcnte complelo. Dc certo modo. o CoreConnect ć para multiproces- 
sadores de chip ónico o que o barramento PCI ć para o Pentium — o adesivo que mantćm junlas tcalas as partes. 
Contudo, diferentementc do barramento PCI. o CoreConnect foi projetado sem nenhuma exigćncia de compatibili 
dade com etiuipamentos herdados ou protocolos e sem as restriyóes dc barramentos dc nfvel de płaca, como limi- 
tes ao numeru dc pinos que o conector dc luirda devc ter. 

O CoreConnect consiste cm tres barramentos. O burrainento dc processador ć um barramento de nlta velo- 
cidadc, sfnerono, com pipeline. com 32.64 ou 128 linhas de dados com relógios dc 66. 133 ou 18.3 Ml Iz. Assim. a 
vazSo mftsima ć 23,4 Gbps (contra 4,2 Gbps para o barramento PCI). As caraclerlsticas de pipeline permilem que 
os nucleos requisitem o barramento enquanto estd ocorrcndo uma transfcrSncia c permite que diferentes nucleos 
usem linhas diferentes ao mesmo tempo, semelhante ao barramento PCI. O barramento dc processador ć otimiza- 
do para transferOneias de blocos curłos. Ele foi projetado para conectar miclcos rapidos. como ( PlJs. deciKlificado- 
res MPEG 2. redes de alta velocidade e itens similares. 
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tslender o harrumento dc processador ao chip imeiro reduziria seu desempenho, purtanlo um segundo bar- 
ramenlo esta presenie para dispositivos de E/S lentos, como UAKTs, temporizadores, controladores USB, dis- 
posilivos dc ti/S serial e assim por dianie. Esse barramenlo de pcrifericos foi projetado com o objelivo dc sim- 
plificar sua intcriacc com perifćricos de 8, 16 e 32 bits usaudo nao mais do que unia cemcna dc portas. Tambćm 
dc ć um barramenlo smerono, com unia vazao m«ixima de 300 Mbps. Os dois harramentos sao concclados por 
urna punie, nao muito diferente das ponieś que forum usadas para conectar os barramcnlos PCI e ISA cm PCs, 
ule o barramenlo IS A ser desconlinuado ha alguns unos. 

O terceiro barramenlo e o barramenlo de regislrudores dc disposilivo, um barramenlo dc muiua aprc 
aenlaęSo assinerono, dc velocidudc muilo baixa, utilizodo para permilir que os processadores acesscm os regis- 
iradorcs de dispositivos dc todos os pcrifericos de modo u controlar os disposilivos correspondenics. E deslina- 
do u irunsferćncius pouco freqUentes dc apenas alguns byles por vcz. 

Ao forncccr barramenlo no chip, intcrface c eslrutura padronizados, a IBM espera criar urna vers9o em 
miniatura do muudo do PCI, nu quul inuilos fabricantes produzam processadores e controladores fóceis de 
serem ligados cm conjunto. Entretanto, urna difcrcnęa ć que, no mundo do PCI, os fabricantes produzem e ven- 
dcm as placus propriamente dilas que os montadores c usudrios finais dc PC compram. No mundo do 
CoreConnccl, lerceiros projelam ndcleos, mas nao os fabricam. Em vez disso, eles os licenciam como proprie- 
dadc inteleclual pata cmprcsas.de clclrdnicos de consumo c outras, que enlao projelam chips mulliproccssa- 
dores helerogencos por cncomenda, buscados em seus próprios ndcleos e em nucleos licenciados por lercci- 
ros. Vislo que fubncar esses chips ido grandes e complexos requer macięo investimcnto em unidades 
industriais, na maioria dos casos as empresas de eletrdnicos de consumo apenas fazem o projeto e subcontra- 
tam a labricaęao do ciup com um fabricanie de semicondutores. Existem ndcleos para varias CPUs (ARM, 
MIPS. PowerPC etc t, bem como para dccodilicadnres MPEG, processadores dc sinais digiluis e lodos os con¬ 
troladores de E/S padronizados. 

O CoreCoanect da IBM ndo <5 o unico barramenlo no chip popular no mercado. O AMBA (Advanced 
Microconlroller Bus Architeclurc), tamhem ć muilo usado (l-lynn, 1997). Oulros barramenlos no chip um 
pouco inenos populures sao o VCI (Yirtual Component Intermnnect — inlerconcxao de componenles vir- 
tuais) e o OCP-IP tOpen Core Protocol — International Partnership — Alianta Internacional — 
Protamin de Niicleo A berło), que lambem estao competindo por uina purlicipuęAo dc incrcado (Kogel e Meyr, 
2004; c Ouadjaoul c Houzei, 2004). Barramcnlos no chip sao sd o comeęo; ha quem jd esteja pensando em redes 
inteiras em tjm chip (Bcnini e De Micheli, 2002). 

Como os fubricanics dc chips encontram urna diliculdade cada vez maior para elevar freq(ićncias de reldgio 
dcvido u problcmus de dissipuędo de calor, multiproccssudores em um linico chip sAo um lópico quc desperta muilo 
interesse. Mais informaędes podetn ser enconiradus em Claasen. 2003; Jerraya e Wolf, 2005; Kumar ci al.. 2004. 
Lavuguo, 2002; Lines. 2004; e Kuvikumur, 2004. 


Capitalo 8 Arąuiteturas de Compuladores Paralelos 








Organizaęao Estruturada de Computadores 334 


8.2 Co-processadores 

Agora que jd vimos alguns dos modos de conseguir paralclismo no chip. vamos subir urn dcgrau e vcr como 
o computador pode ganhar velocidade coin a ndi^ao dc lim segundo pmcessador especializado. Ha unia variedade 
ilcsscs co-processadores, de pequenos a grandes. Nos niainframcs IBM 360 e em lodos os seus succssores. cxis- 
lein canais indcpendcntes de E/S para fazer entrada/safda. De modo semclhanlc, o CDC’ 6600 linha dez processa- 
dorcs indepcndenlcs para efeiuar E/S. Grdficos e aritmelica de ponto flutuante sdo outras dreas onde sao nsados co- 
processadores. Atć mesmo um chip DMA pode ser visto como um co-proccssador. Em alguns casos. a CPt’ dd ao 
co-processador urna instruędo ou um conjunlo dc instraęócs c ordena quc ele as cxccutc; cm outros casos. o co-pro- 
cessador e mais independcntc c funciona em grandę parte por si só. 

Em termos ffsieos, co-processadores podein variar dc um gnbincte scparado (os canais de E/S do 360). unia 
płaca de expansOo (processadores dc rede). a urna drea no chip principal (ponto flutuante). Em todos os casos. o quc 
os distiugue ć o fato ile quc algum outro processador ć o pioccssador principal e que os co-processadores esldo Id 
para ajuda-lo. Agora examinaremos as dreas onde ć possfvcl aumcntar a vclocidadc: proccssnmento em rede. mul- 
timfdia e criptografia. 

8.2.1 Processadores de rede 

Grandę parte dos computadores de hoje estdo conectndos a unia rede ou i) Internet. Como resullado desse pro- 
gresso tccnológico em hardware de rede, as rcdes agora sdo tao rdpidas que ficou cada vez mais diffcil processar 
em software todos os dados que entram e que saem. Como conseq(ićncia. foram desenvolvidos processadores cspe 
ciais dc rede para lidar com o trdfego e muitos computadores de alta tecnologia agora tćm um desses processado¬ 
res. Nesta scęSo, antes de mais nada vamos dar urna brcve inlroduędo a rcdes e em seguida discutircmos como fun- 
cionam os processadores dc rcdc. 

Introduęao a redes 

Rcdes de computadores podem ser de dois tipos gerais: redes locais, ou LANs (local-area networks). que 
concctam vdrios computadores dentro de um ediffcio ou de um campus, e redes de longa distancia <wide-area net- 
works ou WANs), que coneclam computadores cspalhados por urna grandę drea geogrdfica. A LAN mais popular 
ć denominada Ethernet. A Ethernet original consistia cm um cabo grosso no qual erain foręosamente inseridos os 
fios quc vinhant dc cada computador. usando urna dcrivaędo conhecida pelo eufemismo conector vampirn 
Etliemets modemns ligam os computadores a um comutador central, como ilustrado na poręao direita da Figura 
8 .11. A Ethernet original sc arrestava a 3 Mbps. mas a primeira versilo comercial jd era dc 10 Mbps. Ela nSo dcmo- 
rou muito a ser substitufda pela Fast Ethernet a 100 Mbps c, entao. pcla Gigabit Ethernet u I Gbps. Ja existe no mer- 
cado urna Ethernet de 10 gigabits e urna de 40 gigabits jd estd pronta para ser lanęada. 

A organizaędo dns WANs e diferente. Elas consistcm cm computadores especializados denominados roteado 
res concctados por fios ou fibras óticas, como mostra a patie do meio da Figura 8.11. Blocos de dados denomina¬ 
dos pacotes, normalnienie de 64 a cerca dc 15(8) bytes, sdo movidos da mdquina-fonte e passain por um ou mais 
roteadores atć alcanęarem scu destino. Em cada salto, um pacotc ć armazenado na niemóriu do roteador e entao 
repassado no próximo roteador ao longo do caniinho, t;lo logo a linha de transniissilo necessdria csleja disponhcl. 
l-ssa tćcnica e denominada comutaęao de pacotes arniazcna-e-rcenvia. 

Entbora muitos nchem que a Internet e unia WAN tinica, tecnicamcnte cla ć um conjunto de muitas WANs 
concctadas umas its outras. Todavia, essa dislinęan ndo ć importante para nossa finalidade. A Figura 8.11 dd urna 
visdo da Internet do ponto de visla de um usudrio doinćstico. O computador do usuiirio normalniente estd conecta- 
do a um servidor Web pelo sistema telefónico, por meio de um modem discado dc 56 kbps ou por ADSL. que foi 
disculido no Capitulo 2. (Como altemativa pode ser usado um cabo de 'I V, caso em que o lado csquerdo da Figura 
8 .11 ć ligrirnmenie diferente e a einpresa dc TV a cabo ć o ISP.) O computador do usudrio desmembra em pacotes 
os dados que serdo enviados ao servidor e envia csses pacotes ao ISP (Internet Sernice Prorider — provedor de 
servięos de Internet), unia einpresa que oferece acesso a Internet a seus clienles. O ISP tern urna conexdo de aha 
velix.'idade (usualmcnte |wr fibra ótica) com urna das redes regionais ou backbones que compóem a Internet. Os 
pacotes do usudrio sdo repassados salto por salto pela Internet atć chcgnrcm ao scrvidor Web. 

Inslaiaędes dn prcwedor de aplicaęao 
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A maioria das emprcsas quc oferece servięos de Web leni um computudor especiulizado denominado um firc 
wali que filtra lodu o Mulego quc chega na tentativa dc remover pacotes indesejudos por exemplo, pacotes de 
haekers que estao tentando invadir a rede. O fircwall esta conectadu a LAN loeal, normalnienie um comutudor 
Ethernet. que rolcia paeolcs ale o servidor desejado. L ciuro que a rcalidadc e inuilo tnais eomplicudu dt> que mos 
tramos, mas a idem hiisicu da f igura 8.11 continua valida. 

Os software ile rede consiste em inulliplos protoeolos. e cuda um delcs e um conjunto de formatos, seqiien- 
cias de troca e regras sobre o significado dos pacntes. Por exemplo, quando um usuario quer buscar urna pagina Web 
em um servidor, scu hrowser envia ao scrvidor um pacote que contćm urna requisięiu> GET PAGE usando o proto- 
colo HTTP (HyperText Transfer Protoeul — prutocolo de trunsfcrencia de hipertexto). O servidor sabe como 
proccssar essas requisięóex. Hu muilns protoeolos em uso e, freqiientemente, combinados. Nu tnuioriu das situuęńes 
os protoeolos sao estrulurudos como urna serie de cumadas, sendo que as mais alias pussam pacotes paru as muis 
buixas pura processamenlo c a camuda mais buixa efetua u transmissao propriumente ditu. No lado receptor, os 
pacotes percorrem seu cuminho pelas camadus nu ordem iiwersa, isto ć, de baixo paru ci mu. 

Urna vez quc processamenlo dc protoeolos ć o quc os processadores de rede luzem paru gunliur a vida, ć ncccs- 
sdrio explicar um pouco sobre protoeolos anles de estudur os processadores de rede em si. Por enquunto, vumos vol- 
tar a reijuisięao GL T PAGE. Como cla ć enviailu ao servidor Web? O que acontecc ć que, em primciro lugar, o brow 
ser eslubclece urna concxao com o servidor Web usando um pmtocolo denominado TCP (Transinissiun Control 
Protocol — prutocolo de contrule de transmissao) O software que implementa esse prutocolo verifica se todos 
os pacotes forum recebidos iulcgralmente e na ordem corretu. Se um pacote se perder. o software TCP garanle que 
cle seja relransmilido tantas vezes quantas forem necessśrius utć ser recebido. 

Nu pratiea, o que ucontece ć que o browser Web formula a requisięao GET PAGE como urna mensagetn HTTP 
correta e entao a entrega ao software TCP para transmissao pela conexao. O software TCP acrescenta um cabeęa- 
lho a frcnle da mensagem, que contćm um mimem de scqiienciu e outras informaęóes. Naluraltnente, esse cabeęa- 
Iho ć denominado cabeęalho TCP 

Isso feito, o software TCP pega o cabeęalho TCP e a carga util (que contćm a requisięao GET PAGE) c os passa 
u mitro software que implementa o Prutocolo IP (Internet Protocol). Esse software unexu a Irenie do pacote um 
cabeęalho IP que contćm o endereęo da fonte (a mdquina da quul o pacote estd partindo), o endereęo de destino (a 
mdquina para a qual o pacote devc ir), por quantos saltos mais o pacote pode viver (para evilar quc pacotes perdidos 
vivam para sempre), unia soma de verificuęao (para detectar erros de transmissao e de memória) e outros campos. 

Em seguida, < * pacote resultante (que agora ć composlo do cabeęalho IP, cabeęalho TCP e requisięao GET PAGE) 
e pussudo para baixo, paru u cumuda de cnlace de dados, omie ć ucrcscentado um calicęulho de enlucc de dudos a licu 
te do pacote paru a transmissao propriumente dita. A camuda de enlace de dados tambćm acrescenta urna soma de veri- 
ficuęao ao linul do pacote denominudu CRC (Cyclic Uedimdancy Codę — código de redundanda cfdica) |iara 
detectar erros de transmissao. A presenęa de somas de verilicaęao nu camada de cnlace dc dudos e nu camuda dc IP 
poderiu parcccr redundanle, mas ela mclhoru u conłiabilidudc. A cudu salto, o CRC ć vcriticudo e o cabeęalho e o ( RC 
sao renuividos e regenerados e um formulo apropriudo ć eseoihido para o enlace de safda. A Figura 8.12 rnostra o 
aspeclo do pacote i|Uuiulo estii na Ethernet; na linha telefAnica o pacote e semelhante, exceto pelo ‘cabeęalho de linhu 
lelefónica' em vez ile um cabeęalho Ethernet. O gcrcnciamcntn de cabcęalhos e importante e ć uma das coisas quc os 
priKessadorcs de retle podcm fuzer. N5o e preciso dizer que upenas arranhamos a superffcie ilu qucstao de redes de 
computadorcs. Se o leitor quiser um tratamento mais ubrangente, eonsulte Tancnbauni. 2003. 

Introduęao a processadores de rede 

H,1 muilos tipos de disposilivos coneclados As redes. Usuarios finais tern computadorcs pessoais (de mesa ou 
notebooks), ć ciuro, porćtn, cuda vez mais tutnbćm tein m.1quinas de jogos, PDAs (pulmtops) e telefones celulares. 
Empresas tern PCs e semdores como sistemas finais. Tmiuvia, ha tumbem numerosos disposilivos que funcionum 
como sistemas intei mediarios cm redes, entre cles roteudores, comutadorcs, lirewulls, Web proxies e balaneeudores 
de carga. O interessuntc ć que esses sistemas intermediarios siło os mais cxigentes, j.1 que sao eles i|ue devcm movi- 
inenlur u maior ntimero de pacotes por segundo. Scrvidores tumbem sao exigentes, mus as maquinus usuarios nao sao. 

Depeudcndo da rede e do pacote em si, um pacote que chega piwie precisar de viirios tipos dc processamenlo 
antes de ser repussado pura u linha de saldu ou para o programu dc aplicaęao. Esse proccssuincnlo pode incluir dcci 
dir para onde enviar o pacote, lYugmcnta-lo, reconstruf-lo a putlir de sens pedaęos, getenciur sua qualidade dc scr- 
vięo (cm cśpecial para iludio e vfdeo em tempo real). gcrenciar seguranęa (por exemplo, criptografar e decriptogra 
fur), compresstio/descompressflo e assim por dianie. 

Com u velocidade dus I.ANs se aproximando de 40 gigabits/segundo e pacotes de 1 KB. um computador em 
rede pode ter de processar quase 3 milhóes de pacotes/segundo. Quando os pacotes sdo de 64 bytes, o ntimero de 
pacotes que tern de ser processado por segundo sobe a quase 80 milhóes. Executar tiwlas as vdrias funęóes que aca- 
bumos de mencionar em 12 200 ns (aJćm das nniltiplas cópias do pacote que, invariavelmente, sao necessanas) sim- 
plesmente nao ć viuvel em software. A assistencia do hardware ć essencial. 
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Um lipo ile soluęao de hardware para proces samento rdpido de pacotes ć usar um ASK I Applicalion-Speciflc 
lategrated Circuit — circuito integrado especifico para uplicaęiio) sob cspecilicaęSo. Esse chip ć como um pro- 
grama llxo que executa qualqucr conjunto de funęóes de proccssamento para o qual foi projeiado. Muitos roteadorcs 
aluais usam ASICs. Entrelauto. os ASICs tćm muitos problemas. Em primciro lugar, o projelo de um AS1C e niuito 
dcmoratlo e sua fabricaęiło lamWm. Eles s3o rfgidos. portanto, se for necessiiria urna nova funcionalidadc. serii pre- 
ciso projetar e fabricar um novo chip. Alćm do mais. o gerenciamento de bugs ć um pesadclo. vislo que o linico modo 
de eonsertd-los ć projetar. fabricar, despachar e instalar novos chips. Tambćm sao caros. a menos que o vo!ume seja 
tao grandę que permita amorti/ar o esforęo do desenvolvimento coni uma quantidade substuncial de chips. 

Urna scgunda soluęao ć o FPGA (Field Programmable (Jatę Array — arranjo de portas prngranituel em 
ca nipo). que e um conjunto de portas que pode ser organizndo conformc o circuito desejado modillcando sua fia- 
ęao em campo. O tempo de chegada ao mcrcado desses chips (5 muito mais curto do que o ilos ASICs, c sua flaęao 
pode ser modilicada em campo removendo-os do sistema c inserindo-os em um dispositiio especial de reprograma- 
ęio. Por outro lado. eles siło complexos. Icntos c caros e. por isso, niio siło atraentes. exceto para aplicaęóes que tćm 
um nicho de mercado especffico. 

Por firn. chegamos aos processadores de rede. dispositicos programtłveis que podem manipular pacotes que 
chegarn e que sacm a velocidadc dos fios, isio e. em tempo real. Um projeto conium ć uma płaca dc expans9o que 
contćm um proccssador de rede cm um chip junto com memória c lógica de apoio. Um ou mais enlaces de rede se 
conectam com a płaca c siło roteados para o proccssador de rede. Ali. os pacotes siło extrafdos. proccssados e envia- 
dos por uma liulia de rede diferente (por exemplu. para um roteador) ou cm iados para o barramento do sistema prin- 
cipal (por cxcmplo, o barramento PCI) no caso de dispositivo de usuńrio finał como um PC Uma płaca dc proces- 
sador de rede e um chip tfpicos siło ilustrados na Figura 8.13. 

Tanio a SRAM quanto a SDRAM sito fornecidas na płaca e normalmente siło usadas de modos diferentes. A 
SRAM ć mais rtipida. porćm mais cara do quc a SDRAM. portanto hi apenas uma pequcna quantidade dęła A 
SRAM ć usada para conler tabclas de roteamento e outras estruturas de datlos Gmdamentais, enquanto a SDRAM 
contćm os pacotes que estao sendo proccssados. Como a SRAM e a SDRAM siło estertuis ao chip do processador 
de rcdc. os projetistas da płaca tern fłexibilidade para determinar quanto foniecerde cada uma. Dessc modo. placas 
de baixu tecnologia com uma (lnica linha de rcdc (por exemplo. para um 1X7 ou um sen idot) podem ser cquipadas 
com uma pcquena quantidade dc memória, enquanto uma płaca de alta tecnologia para um roteador de grandę porte 
pode ser equipada com muito mais. 

Chips de processadores de rede sao otiniizados para proccssar rapidumente grandes quantidades de pacotes 
que entram e saem. Isso significa milhóes de pacotes por segundo por linha dc rede. c um roteador poderia ter, faeil- 
mente. meia duzia dc linhas. A unita maneira dc atingir tais taxas dc proccssamento ć construir processadores de 
rede munidos de ałto grau de paralclismo. E, de fato. todos os processadores de rede consistem em vśrios PPF.s. 
denoininados pelos variados nomes Protocol/Programmable/Packet Processing F.ngincs imaquinas cle proces* 
samento de prntocolo/pnigramaęócs/pacntes). Cada um ć um nucleo RISC (possivelmente modificado) c uma 
pcquena cjuantidade de memória interna para conter o programu c algumas variaveis. 

Os PPEs podem ser organi/.ados de dois modos diferentes. A organizaęao mais simples ć todos os PPEs idćn- 
licos. Quando um pacote cltega ao proccssador de rede. seja um pacote de enlrada que vem de uma liulia de rcdc. 
seja um pacote de safdu que vem do barramento, ele 6 entregue a um PPE ocioso para proccssamento. Sc nio Itou- 
vcr nenhum PPE ocioso, o pacote entra na fila na SDRAM na płaca ate que algum PPE seja liberado. Quando ć 
usada essa organizaęao, as conexóes horizontais moslradas entre os PPEs na l-igura 8.11 nao existem porijue os 
PPEs niio tćm nenhuma neccssidade de se comunicar uns com os outros. 

A oulra forma de organizaęao de PPEs ć o pipeline. Nessa organizaęao. cada PPE executa uma etapa de pro- 
ccssamento e entio alimenta um ponteiro para seu pacote de safda para o próximo PPE no pipeline. Desse modo. o 
pipeline de PPE age de modo muito parecido com os pipelines de CPU quc estudamos no Capftulo 2. Em ambas as 
organizaęóes os PPEs sao complclamente programaveis. 


Figura B.13 

Płaca e chip de um 
processador de rede tiplco. 






Em projetos avunęados, os PPEs tem multithreading, o que significa que eles tem vdrios conjuntos de registra¬ 
dores e urn regislrador cm hardware que indica qual deles csia cm uso no momento cm questao. Essa caracterisii- 
ca e usada para exccular vurios prngramas ao mesmo tempo, permitindo um programu comule, isto e, fuęa urn 
thread, apenas ullerando a varidvel 'conjunto atuaJ de registradores’. Mais comumente, quando um PPE prolela, por 
excmplo, quando referenda a SDRAM (o que toina varios eiclos dc rclógio), eie pode enmutar instantaneumente 
para um thread executdvel. Dcssa maneira. um PPR pode conseguir altu utilizaęao, mesmo quando hioqueia eom 
freqiiencia para acessur u SDRAM ou rcalizar alguma outra operuęao externa lenta. 

Alćrn dos PPEs, todos os processadores de rede conlfira um proeessador de controle, usuulmeme apenas unia 
CPU RISC padroni/ada de uso geral, para realizm todo o trabalho nao relacionado eom prueessamento de pacotes, 
tal como atuali/uęau dus tahelus de roteameuto. Seu programu e dudos estdo na incmória no chip loeal. Alem do 
mais, muitos chips dc processadores dc rede tambem contćm um ou mais processadores especializados paru rculi 
zar compatibilizaędo de pudrftes ou ouU'as operaęfies crfticas. Na realidade, esses processadores sćio pcquenos 
ASICs que sao bons para exeeutar urna dniea operaęao simples, tal como consuitar um endereęo de deslino na tabe¬ 
la de roteameuto. Todos os eomponenles do proeessador de rede se comunicam por um ou mais barramentos para- 
lelos no chip, que funcionam u velocidades de mulligiguhits/segundo. 

Processamento de pacotes 

Quando um pacole chegu, ele passa por vńrios eslagios de processamento, independentemente de o processa- 
dor de rede ter urna organizaęao paralela ou de pipeline. Alguns processadores de rede dividem essas ctapas cm opc- 
raędes executudas etn pacotes que ehegarn (seja de urna linha dc rede, seja de um barramento de sistema), denomi- 
nadas processamento de entruda, e operaęóes executadas em pacotes de safda, denominadas processamento de 
salda. Quando essa dislinęao e feita, todo pacote passa, cm pritneiro lugar, pelo processamento de entruda e, em 
seguida, pelo processamento de salda. A frontcira entre processamento de entrada e processamento de salda ć fle- 
xt'vel porque algumas etapas podem ser realizadas em quaisquer das duas partes — por exemplo, coletar estatfsti- 
cus de trdfego. 

A seguir diseuiiremos urna ordenaęao potencial das vdrias etapas, mas observe que nem todos os pacotes pre 
cisam de todas as etapas e muitas outras ordenaęoes siło igualmente vdlidas. 

1. Verificaęao de erros de transmissao. Se o pacote de entrada estiver chegando da Ethernet, o CRC e recal- 
culado para ser comparado com o que estd no pacote e ter certeza de qne nao hd nenhum erro de transmis¬ 
sao. Se o CRC Ethernet estiver correto, ou lido estiver presente, a soina de verificaędo IP 6 recalculada e com- 
parada com a que estd no pacote para ter certeza de que o pacote IP nao foi danificado por um bit defeituoso 
nu inenióriu do remetenle após o cdlculo da soma de verificuęao IP uli efetuado. Se todas as somas estive 
rem corretas, o pacole ć aceito para processamento ulterior; caso contrario, e simplesmente descartudo. 

2. Kstruęao do eunipo. O cabeęalho relevante e analisado e os campus fundamentais sao extratdos. Em um 
coinutador Ethernet, só o cabeęalho Ethernet e examinado, ao passo que, em um roleador IP, o cabeęalho 
IP e inspccionadu. Os campus Fundamentais sao armazenados em registradores (organizaęao cm PPEs 
paralelos) ou SRAM (organizaęao em pipeline). 

3 . Classificaęao de pacotes. O pacote 6 classificado conforme urna serie de regrus programdveis. A classi- 
ticaęau mais simples Ć distinguir pacotes de dados de pacotes de controle, mas em geral sao feitas distin- 
ęfles mais retinudas. 

4. Seleęao de caminho. A maioria dos processadores de rede tem um caminho rdpido cspecial, otimizado, para 
tratar os pacotes de dados comuns; todos os oulms pacotes siło tralados de modo diferenle, muitas vezps pelo 
proeessador de controle. Por conseqiiencia, 6 preciso escolher o caminho rdpido ou o caminho lento. 

s. Dctei minuęao da rede de deslino. Pacotes IP contfim um endereęo de destino de 32 bits. N3o ć possf- 
vel, itent desejdvel, ter uma tabela de 232 entradas para eonsultar o destino de cada pacote IP, por consc- 
guinle, a parte da extrema esquerda do endereęo IP e o ntimero da rede e o resto cspecifica a mdquina 
naquela rede. Ndmeros de rede podem ter qualquer comprimento, pnnanto, detenninar o ntimero da reile 
de destino nao e uma larefa trivial e lica piór devido ao falo dc que varias combinaęóes sdo posstveis e u 
mais longa e a que conta. Nessa fasę, muitas vezes 6 usado um AS1C sob encomenda. 

e. ('onsuitu de rola. Uma vez conhecido o ntimero da rede de destino, a linha de salda a usar pode ser cortsul- 
tuda em unia tabela na SRAM. Mais uma vez, nessa etapa pode ser usado um ASIC fabricado sob demanda. 

7. Fragmentnęao e reconstruęao. Programas gostam de apresentar grandes cargas tileis a camada TCP paru 
reduzir o mimero de chamudas de sistema necessarias, mas todos, TCP, IP e Ethernet, lem tumanhos maxi- 
mos para os pacotes que podem manusear. Como conseqiiencia desses limites, cargas uteis e pacotes tal- 
vez tenhuin dc ser fragmentados no lado remetente e seus pedaęos reconstrufdos no lado receptor. Essas 
sao tarefas que o proeessador de rede pode realizur. 

8. Computacao. As vezes & necessdrio realizar computaęao pesada sobie a carga ulil, por exeinplo, compri- 
mir/descomprimir dados e criptografar/decriplogiafar dados. Essas sao tarefas que um proeessador de rede 
pode realizar. 

a. (lemidaniento de cabeęalho. As vezes 6 preciso adicionar ou remover cabeęalhos, ou modificar alguns 
de seus cumpos. Por exeinplo, o cabeęidho II’ tem um campo que conta o numeru de sallos que o pacote 
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ainda pode fazer anlcs cle ser descartado. Toda ve/. que ć retransinitido. esse campo deve ser deeremcnta- 
do. algo que o proccssador de rede pode fazer. 

10 . Gerencinmento de fila. Pacotes quc chegam c saem muitas vczes tćm de ser eolocados em fi las enquan- 
to csperam sua vez de serem proeessados. Aplicayóes de mullimfdia pudem preeisar de um certo espaęa- 
mcnto de teni|)o entrc pacotes para evitar instabiiidade no sinal (jitter). Um firewnll ou roteador |xxle pre¬ 
eisar di.slribuir a carga que chcga entre vdrias linhas de salda de acordo com ccilas regras. Todas essas 
tareras pudem ser exeeutadas pelo proeessador de rede. 

11 . Geravio cle sorna cle verificuęao. Pacotes de safda precisam receber urna soma de verificayjlo. A soina 
dc verificaęao 11* pode ser gerada pelo proeessador de rede, mas o CRC Ethernet <5 geralmenle caleidado 
pelo hardware. 

12 . Contabilidade. Em alguns casos e preciso urna eontabilidade para o trdfego de pacotes. em espceial quan- 
do urna rede estd repassando Irafego para outras redes como um servięo comcrcial. O proeessador cle rede 
pode fazer a contabilidade. 

13. Coleta dc dados cstatfsticos. Por firn, muitas orgnnizayóes gostant dc coletar dndos estatfsticos referen- 
tes a seu trdfego c o proeessador dc rede e um bom local para fazer essa coleta. 

Melhorias de desempenho 

Desempenho ć o que importa cm proccssadorcs de rede. O que pode ser feito para melhord-lo? Porćm, anles 
cle melhorar o desempenho. tentos de definir o que ele signifiea. Um mcxlo de mediędo ć o mimem de pacotes que 
sito repassados por segundo. Um segundo modo ć o mimem cle bytes transtnilidos por segundo. Essas medięńes sao 
diferentes e um csqucma que funciona bem para pacotes pequenos pode ndo funcionar tao bem para pacotes gran- 
des. Ent particulur, no caso de pacotes pequenos, melhorar o niimero de consultas de destino por segundo pode ąju- 
dar muito, mas. quando se trata de pacotes grandes, pode ndo ajudar. 

O modo muis direlo de melhorar o desempenho 6 aumentar a velocidade de relógio do proeessador de rede. Ułam 
que o desempenho ndo e linear em rcla^do d velocidade de relógio. visto que o tempo de ciclo cle memória e outros 
falores tambem o influenciam. Alem disso. um relógio mais rapido signifiea qtie niais calor deve ser dissipado. 

Introduzir mais PPEs e paralelismo costuma ser um mćtodo que dd ótimos rcsultados, cm cspecial quando a 
organizaęao consiste em PPEs paralelos. Um pipeline mais profundo tambćm pode-ajudar. mas só se o trabalho de 
processar um pacotc puder ser subdividido em poręóes menores. 

Urna outra tecnica 6 adicionar processadores especializados ou ASICs para tratar opcraęóes cspcdficas. que 
lomarn muito tempo e sdo renliradas repetidas vezes, e que podem ser cxecutadas com maior rapidcz em hardware 
do que em software. Consultas. cdlculos dc somas de vcrificaędo e criptografia estao entre as muitas candidatas. 

Adicionar mais bamimentos intemos e aumentar a largura dos barramcnlos existcntes pode ajudar a ganhar 
yelocidade porque os pacotes passam pelo sistema com maior rapidcz. Por firn. substituir SDK AM por SRAM cos¬ 
tuma ser considerado como algo quc melhora o desempenho, mas. por certo, teru um preęo. 

Ir claro quc h;i muito mais a dizer sobrc processadorcs de rede. Algumas referCncias sdo Comcr. 2(X)5: Crowley 
et al.. 2002; I.ekkas. 2003: e Papacfslathiou et al.. 2004. 

8.2.2 Processadores de midia 

Urna segunda area na qual co-processadorcs sao usados ć o tratamento dc imagens fotogrdficas, audio c vfdeo de 
alta resoluęao em temper real. CPUs comuns ndo sao espccialmcntc boas nas computaęóes mncięas necessdrias para 
processar as grandes cjuantidades cle dados rcqueridas nessas aplicaęóes. Por essa razao, alguns P( s aluais e a nuiioria 
dos PCs futuros serao cquipados com co-processadores de mfdia para os quais passardo grandes poręóes do trabalho. 

0 proeessador de midia Nexperia 

Estudaremos essa area de crcscenle importdncia por rneio dc um cxeinplo: o Ncsperia da Philips, urna familia 
de chips disponfvel cm viirias frccptćncias cle relógio. O Nexperia e um multiprocessador de chip linico heteroge- 
neo independente, no sentido da Eigura 8.10. Ele contćm vdrios niicleos. incluindo urna CPU VE1W Tri Media para 
controle. mas tambćm diversos nticleos para processamento de imagem. audio. vfdeo e rede. E.le pode ser usado 
como um proeessador principal autónomo em um reprodutor ou gravador dc CD, DVD ou MIM. aparelhos de TV 
ou deccKlificadorcs de sinal dc TV, maquinas fotogrdficas d ciimeras de vldeo etc., ou como um co-proeessador em 
um PC para processar imagens c mfdia em tempo real. Em ambas as configuraęóes ele executn seu próprin pecpie 
no sistema opcracional de tempo real. 

O Nexperia tem ties funęóes: capturar correntes de enlrada e convertć-lns em estruturas cle dados na memória. 
processar essas estruturas de dados e, por fim. produzir urna safda cm fonnas adequadas aos vdrios dispositivos 
conectados. Por exemplo, cptando um PC 6 usado como repnnlutor de DVD, o Nexperia pode ser pmgramado para 
ler a correntc dc vfdeo criptografada c comprimida do disco de DVD. decripla la c descomprimi-la e enlao produ¬ 
zir a safda em um tamanho adcquudo ii tela na qual ela estd sendo apresentada. E tudo isso pode ser feito em segun¬ 
do piano, sem envo!ver de modo algum a CPU principal do computador, tao logo o programa do reprodutor cle DVD 
tenha sido carrcgado no Nexperia. 

Todos cts dados que chegam sao primcim armazenados na memória para processamento; nao ha nenhuma 
conexSo direta entre dispositivos de entrnda e disposilivcts dc safda. Capturar enlrada inc lui decodificar a purtir de 





unia ampla \ uriedade de lanianhos e formutos de vfdeo (enlre des MPEG-1, MPEG 2 e MPEG-4), formatos de 
Audio (incluindo AAC, Dolby c MP3) e convener paru estruluras de dados adequadas para annazenainento e pro- 
cessainenlo: A entrada pinie vir do barramenlo PCI, da Ethernet ou de linhas de entrada dedicadas (por exemplo, 
um microfone ou urn sistema estźreo ligado diretamentc no chip). O chip Nexperia tern 456 pinos, alguns dos quais 
estiio disponfveis para entrada e salda diretas de fluxo(. de mfdia (e oulras). 

O processamenlo de dados e controlado pelo software na CPU TriMediu, quc pode ser programada para o que 
for necessArio. Entre as tarefas Ifpicas estao desentrelaęar vfdeo para melhorar sua nitidcz, corrigir o brilho, o con- 
traste c a eor de imagens, aumentar o tamanho da imagcm, eonverter de e para diferentes formutos de vidco e redu- 
zir nudo. A CPU eostuma agir cumo o empreiteiro prineipal, subcontratundo grandę parte do trabalho com nucleos 
especializudos no chip. 

A funcionalidude de saidu inclui coditicar estruluras de dados cm unia forma adequudu uo disposilivo de safda, 
fundir mulliplus foules de dados (video, audio, imagem. grAficos em 2D) e controlar os dispositivos de salda. Assim 
como a entrada, a salda pode ir para o barramenlo PCI, para a Ethernet ou para linhas de salda dedicadas — por 
excmplo, um alto fulante ou um amplificador. 

l)m diagramu de blocos do chip Nexperia PNX 1500 ć dudo na Figura 8.14. Oulras versóes apresentam ligei- 
ras diferenęas, poilunio, por ijuestAo dc coerSncia, quundo nos referirmos a 'Nexperia' nenia seęAo, significa u 
implementuyao PNX 1500. Ele lem qualro seęóes principuis: controle, entrada, processamenlo e safda. A CPU ć o 
processador VI.IW TriMediu de 32 bils discutido na ScęAo 8.1.1 que funciona a 300 MHz. Seu programu, usuul- 
mente escrito cm C ou C++, deterniina a funcionalidude do Nexperia. 

O Ncxperia nao umiem ncnhuma memória no chip, cxceto para as duas caches dentrn da CPU TriMedia. Em 
vez disso elc lem umu inlerfuce para a memória externa que pcrmite 8-256 MB de DDR SDRAM, o que e baslunte 
para apUcaęfcs tfpicas dc mulimudiu. Com um relógio dc 200 MHz, a largura de banda da memória ć 1.6 GB/s. 

lima interface PCI complcta tambóm estA incluida no chip, com transferśncias de 8, 16 e 32 bits a 33 MHz. 
Quaudo usada como a CPU prineipal dcnlro de um equipamento eletrónico de consumo (por exemplo, um repro- 
dutor de DVD), a inicrfacc PCI tambćm pode agir como Arbitro de barramenlo. Essa inlerfuce pode ser usada, por 
cxemplo, para se comunicar com um drive de DVD. 

A conectividade direta com Elhemei e proporcionada por um nucleo dedicado que pode manipular concxócs 
Ethernet de 10 e 10(1 Mbps. Por conscqiiencia. unia camcorder cquipada com Nexperia pode produzir u safda de um 
fluxo de vfdco digital por urna interface Ethernet ate um dispositivo remoto dc capiura ou apresentuęAo. 

O nucleo seguintc munipulu inicializaęao, restauraęao. rclógios e algumas oulras caractcrfsticas nienos irnpor 
tuntes. Sc um certo pino do Nexperia for ativado, e iniciada unia restauraęao. O nucleo lambćm pode ser programu- 
do como um iniemiptor dc seguranęa. Se a CPU nSo enviar ncnhuma mcnsagcni durantc um certo perfodo dc tempo, 
o nudco entende quc o sistema caiu e parte para urna reinicializaęAo por si só. Em disposilivos uutónomos u reini- 
cializaęao pode ser leila por meio dc urna memória flush. 

O nucleo e comandado por um oseilador exlemo dc crislal de 27 MHz, que ć multiplicudo intemamente por 
64 para dar uni sinul dc 1.728 GHz usudo em todo o chip. O gerenciumcnto dc energia tambćm ć rcalizado aqui. 
Normalnienie u CPU funciona a'uida velocidaile c os outros componentes a qualqucr vclocidade que lenham de fun- 
cionar para conseguir reali/ur seu Irabalho. Contudo, e possfvel ijue a CPU reduza a velocidudc do relógio para pou- 
par energia fambem ć lornccido um modo adormccido paru desligar a nuiiuriu dus funędes quundo nao ha nenlium 
irabalho u rculizar, o quc consemi a curga da bateria de disposi(ivos móveis. 
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Essa unidadc tambćm eontćrn 16 ‘scmaforos' que pudem ser usados para sincronizaęAo enlre dispositivos. 
Quando um mielcu escrevc um valor nHo-zero para uni semdforo quc estd em zero no momento em qtiestiU>. a escri- 
la <5 bern-succdida; caso contrśrio ela falha e o antigo valor permanecc intacto. A escrita de um zero ć sempre bem- 
sucedida. Unia vez que só um niicleo pode adquirir o barramentu de sistema por vez, essas operaędes siło atumicas 
e proporeionam as rerramentas necessdrias para conseguir exclusao nuitua. Para adquirir um recurso. um niicleo 
lenta escrever um valor nflu-zeru para um semdforo cspccfficu. Se a escrita lor bem-succdida. ele tern acesso cxclu- 
sivo ao recurso ató libcrar o rccurso escrevendo um zero para cle. Quando urna escrita falha. o niicleo que falhou 
tern de continuar tentando periodicamente alć ser bem-sucedido, portanto, na realidade. esses nao sao scmdfoms 
classicos no sentido do Capftulo 6. 

Agora vamos examinar a seęao de entrada. O niicleo de entrada dc vfdeo rccebe urna eorrenle dc vfdco digi- 
lal de 10 bits de largura que estd entrando. converte-a para 8 bits usando um algoritmo de ajuste e a armazena nu 
SDRAM extema. Na maioria das situaęoes a entrada digital ć a safda dc um conversor anuldgico para digital extei- 
no que esta recebendo um sinal analńgico de televis3o. qucr pelo ar. quer por urna entrada dc TV a cabo. 

O niicleo genćrico de entrada pode capturar entrada nilu estruturada de 32 bits de largura de urna fontc arbi- 
Iriiria de dados a 100 MHz e nrmazetid-ln na SDRAM. Tambćm pode capturar dados estruturndos com marcadores 
que delinciam as fronteirus dc registni. O roteador em frcnle das duas entradas de vfdeo digital dcniultiplexa as 
entrndas e tambćm pode rcalizar algumas transformaęfles dc vfdeo ao mesmo tempo. A dcniultiplexaę9o e neccssd- 
ria porquc os tnesmos pinos s3o usados para entrada de vfdco e para entrada genćtica. 

O niicleo dc entraiła dc iSudio pode capturar atć oito canais de inusica em estćreo ou voz com prccis3o de 8, 
16 ou 32 bits atć 96 kllz e armazend-la na SDRAM. Tambćm pode decodificar formalo* cumprimidos. misiurar 
canais, alterar a taxa dc amostragem c aplicar filtros, tudo durante a execuę3o, anles de anna/enar os dados de dudio. 

O niicleo de entrada dc SP digital permite a entrada de sinais digitais de audio quc obcdeęant ao padr8o de 
dudio digital da Sony-Philips (1EC 1937). Dcssc modo audio digital pode ser passado de um dispositivo para outro 
sem nenliuma perda de qualidnde. 

T3o logo os dados de dudio, vfdeo ou outros tenham entrado, normalmente elcs precisam ser processados. o 
que ubordaremos na pruxima seęao. Filmes em DVD. vendidos ou alugados. sao criptografados (misturados) para 
evitar cópia. O dccodificador Ulescnimhler) dc DVD remove a criptografia para apresentar u filme original. com- 
primido com MPEG-2. Essa remoęao da criptografia ć urna operaęao memória-para-mcmória sendo que a entrada 
veni de um bufTer c a safda vai para um buffer difcrcntc. 

O decodificador de comprimento vai mais adiante e removc as caracteristicas de codilicaęao de comprimento 
varidvel de compressao MPECi-2 (ou MPEG-I) e produz dados semidescomprimidos pata u niicleo de processa- 
mento MPEG. o que e feito pela TriMcdia cm software. A raziio para essa subdivi*iio e que a remoęao da deeodifi- 
caędo de comprimento varidvel (dccodificaęao de Huffman c dc comprimento de execuę9o) nao usa as capacidades 
da TriMcdia com muita eficićncia, portanto foi considerado inelbor usar alguns milfmetros i|iiadrados dc silfcio e 
fazć-la cm hardware. Essas opcraęóes, todas elas memória-para-memória. produzem um mapa de pisel* direto 

O mapa de pixels pode estar em qualqucr um dus tres formatos gerais, cada um com tres ou quatro variantes 
para diferentes tamanhos c parametros. O primeiro formatu d cor indexnda. no qual cada valor d um fndice para 
uma CLUT (Color Look lip Table — tabela de consulta de eores) quc contdm um valor dc cor de 24 bits c uina 
nińscurn de eanal alfa dc 8 bits, usada para determinar transpardncia quando liii sobreposięilo dc tniiliiplas cama- 
das. O segundo formatu ć RGB. o modo dc funcionamento dos monitores. com valores separados para as intensi- 
dades do vcrmelho. verde c azul de cada pixel. O terceiro formalo ć YU V, projetado de acordn com o modo de codi 
ficaędo dc sinais dc tclcvis3o. Em vez de cudificar componentes vennelho. vcrdc e a/ul em separado, <5 rculizada 
uma transformaęAo na cAmera para produzir um canal de luminAncia (brilhftncia) e dois canais de cniminAncia (cor). 
Essc sistema permite a alocaęao de mais largura de banda ii luminaneia do quc ii cromindncia, o que. por sua vcz. 
proporciona melhor imunidade a rufdo durante a transmissao. Para uma aplicaęao que envohc uma entrada (in) e 
uma safda (out) de televisflo, o formalo YUV faz sentido. Restringindo o formato annazenado a um numeru limita- 
do de opviies. cada nticlco 6 capa/ de ler a safda produzida por todos os outros nticleos. 

O controlador de tamanho de vfdeo accita uma lista de tarefas dc contrule de tamanho e entao as exccuta a uma 
laxa mdxima de 120 milhócs dc pixels/s. Entre essas tarefas estao: 

1. Desentrelaęamenlo. 

2 . Aumento de tamanho horizontal e vcrtical. 

3. Convers3o de raziło de aspecto linear e nao-linear. 

4 . Conversao entre diferentes formatos dc pixels. 

5. Coleęao de histogramas de luminilncia. 

e. Rcduęao dc variaęOes de brilho (flicker ). 

Sinais de televisao broadcast siło entrehu,ados. o que significa que. para cada quadro. que consiste em 525 
linhas dc scan (625 para PAL c SECAM), primeiro siio transmitidas todas as linlias pares c, em seguida. todns as 
linhas fmpares. O descntrelaęamento produz um scan progressho de melhor qualidade. no qual todas as linhas de 
scan sao processadas ou transmitidas em sua ordem verdadcira e remwadas a duas vezes a taxa dc quadros cntrela- 
ęndos (29.97 fps para NTSG e 25 fps para F ł AL c SECAM). O controlador de tamanho horizontal e \ertical permi¬ 
te quc o tamanho das imagens seja retluzido ou aumentado. possivelmente depois do pecorte. A telecisilo padrfio tern 
uma raziło dc aspccto dc 4:3. mas na lelevisao dc tcla larga ( wide-screen) a razao ć 16:9, mais adequada ii raz.ao 3:2 



de filmes dc 35 mm. O conlroludor de tamanho pode cnnverter entre essas ra/rtes de aspeclo, seja linearmenle, seja 
usando um algoritmo nao linear. Kle lambćm pode eonverter entre os formatos indexado, ROB e YUV, e montar um 
histograrna do valor de luminftncia, o que 6 uril para melhorar a cpialidude de imagem na salda. Por firn, podem-se 
realizar eertas trans formaęóes para redn/ir as variaędes de brilho da imugetn. 

O processador gratko faz apresentaęoes em duas dimensóes de descrięSo de objetos. Tambem pode preeneher 
areas cercudas e realizaroperaęAes graficas bitblt, o que equivale a pegar dois ntapas de pixels retangulares e com- 
bina-los usando uma łurię3o AND. OR, XOR, ou alguma outra funęao booleana. 

Nao hii nenhum nticleo para fazer processamento de dudio. Todo processamento de dud i o que nao d leito na 
entrada ć feito pela CPU TriMedia em software. O audio requer um ndmero tfiu pequeno de datlos que processti-Io 
em software nao ć problema algum. Alćm disso. niuitas itplicaęoes n3o requerem absolutamentc nenhum processa- 
inento de dudio, exceto (alvez, convcrs3o de formatos. 

O nticleo de dcpuraęńo ajuda projetistas e prograntadores u depurar hardware e software. Fomece uma inler- 
face para instrumeniuęao e fcnamcnlas compatfveis cotn o padriio JTAG (Joint Test Aclion Group — grupo de 
aęio de testes conjunlos), como deftnido no padrao IEEE 1149.1. 

A seęao dc sanla pega os dados processados na memriria c os envia para a saida. O nticleo de video compos- 
to pega uma ou mais estruluras de dados que representum pixcls, as norntaliza de certos niodos e entao as mistura 
de maneiras cspecilicadas paru salda. Dados em forinato indexado sdo desindexados durante o proeesso para obler 
os pixels propriameute ditos, e formatos incompatfvcis sao convertidos eonlorme a necessidade. lisse mieleo tant- 
bćm pode fazer correęao de contraste, brilho e eor, se requerido. Tambćrn pode fazer ‘cromakey’, na qual uni ator 
que estd na Irenie de unia tela de puro a/ul & recortado da tela e colocado visualmente na frente de um cenariu tira- 
do de uma fontc diferente. De modo semelhante, desenhos animados nos quais os personugens de primeiro piano 
se inovinienlam contra um pano de fundo (cenario) esttilico ou em movimento, podem ser produzidos aqui. E. i 
claro, o resultado finał ć convertido para os formatos de vtdeo ou televis3o rcqueridos (porexemplo, NTSC, PAK 
ou SECAM). incluindo a geraędo de pulsos de sincronizuęao horizontais e verticais. 

Visto que nao ha nenhum custo exira, espera-se que a maioria dos sisteinas baseados no Nexperia seja capuz 
de munipulur uutomaticamente torlos os tres formatos de ielevisao, dc modo que poderao ser vcndidos sem ntodili- 
caęócs cm quatqucr parte do mundo. De modo semelhante. udiciunar !I1)TV (High Definition TeleYision) ao mis 
em qualquer dos formatos significa apenas adicionar um pouco mais de software para munipulur eonversóes de e 
para estruluras de dados da memóriu. 

O mieleo genćrico de saida apenas movimenta bils, 8, 16 ou 32 por cielo u 100 MHz, o que da uma largura de 
bunda m3ximu de 3 2 Gbps. Intereonectundo a saida de um chip Nexpcriu com u entrada genćricu de um outro chip 
Nexperia. pode se Iransferir urquivos u velocidades muiores do que a da Ethernet gigabii (1 Gbps). Essa interfaee 
tatnbem pennite quc u f'Pl I prdduza saida de qualquer lipo r|ue o software precisar. 

O roteudor de saida multiplexu as duas fontes de saida e tambem acreseenta alguma fuiicionulidade. incluin¬ 
do renovuę3o de exibięóes em puinćis planos (TIT) de lumanhos atć 1280 X 768 pixcls a 60 Hz ou renovaę3o de 
uparelhos de televisao entrelaęudos ou progressivos. A multiplexaęSo e necessaria porque as saidas de video eom- 
posto e genćrieu compartilham os mesmos pinos. 

O rnieleo de saida de dudio pode produzir atć 8 eanais estereos eom precisao de 32 bits nas laxas de amostra- 
gem atć 96 kHz. Essa saida comumcntc comanda um eomersor extemo digital-para-analógieo. A safda SP digital 
pode ser concciudu a entrada SP digital de disposilivos que usatn o padrao de dudio digital Sony-Philips. 

O mieleo li nul manipula K/S de uso geral. Ha 16 pinos disponiveis para qualquer utilizaędo requerida, rpie 
podem ser coneetados a teelas ou botóes, eomutadores ou LKDs para quc sejam vistos ou ativados em software. Os 
pinos pudem ser usados atć nicsino para protoeolos de redc de mćdia veloeidade (20 Mbps) eontrolados por soft¬ 
ware. Tarnbćm hd vdrios temporizadores, contadores e tratadores de eventos presentes nesse nticleo. 

No (otul, o Nesperiu tern uma enorme eapaeidade de computa^ao para aplicaęóes audiovisuuis e, como os pro- 
eessadores de rede. permitem que a CPU se livre de uma quantidadc macięa de trabalho. A eapaeidade de compu- 
laęao 6 ainda maior do que poderia parecer 3 printeira vista, uma vez que todrts os nticleos podem executar em para¬ 
lelo uns eom os outros e com a CPU. E, o que lalvez seja surpreendente. ele custa menos do que 20 dólares quando 
eomprado em grandę yolunte. Nesta altura, o poder dos eo-processadores, ern espeeial os baseados em chips ntul- 
tiprocessadores heterogeneos ja deve estar ficando mais claro. Se o leitor quiser conheccr um chip andlogo dirigi 
do mais 3 telefonia do que a multiinidia, consulte Nickolls et al., 2003. 

8.2.3 Criptoprocessadores 

Uma tcrceira area na qual os co-processadorcs sao populares ć seguranęa, em espeeial seguranęa em redes. 
Quandu urna conexuo e cstabeleeida entre um elientc e um servidor, em muitos casus eles devem primeiro se aulen 
ticar inutuamenie. Entfio, i preciso eslabeleeer uma conex3o segura e criptografada entre eles, de modo que os dados 
possani ser transfetidos cotn seguranęa para frustrar quaisquer bisbilhoteiros que poderiam estar invadindo a linha. 

O problema da seguranęa e tjue, para consegui-la, 6 preciso usar criptografia, e criptografta faz uso muito 
inlensivo de computaęao. Ha dois tipos gerais de criptografia, denominudos criptogratiu de chave simetriea e 
criptogralia de chave ptiblica. A printeira e baseada na mistura coitipleta de bits, algo equivulente a jogar uma 
mensagent denlro de um liquidtficador. A ultima e baseada em mulliplicaęao c exponenciaęao de grandes niimeros 
(por exemplo, 1.024 bits) e eonsomc enormes quantidades de tempo. 
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Para manipular a compulaęao necessdria para criptografar os dados com seguranęa pani IransmissSo nu arma- 
zenamento, vdrias cmprcsas produziram co-processadores criplogrdficos. ds vezcs soh a forma dc placas dc cxpan 
sdo para barramcnlo PCI. Esses co-processadores tfim um hardware cspccial quc os habilita a executar a criptogra- 
fia necessiiria muito mais rapidamente do que poderia urna CPU comum. Infelizmentc. urna discussao detalhada do 
modo de funcionamento dos criptoprocessadores cxigiria, cm primeiro lugar, expliear multa coisa sobre a criplo- 
grafla em si. o quc estd fora do escopo desse livro. Se o leitor desejar mais infonnaęoes sobre co-processadores crip- 
togrdficos, pode consultar Dancshbch c Hasan. 2004: c Lutz e Hasan. 2004. 

8.3 Multiprocessadores de memória compartilhada 

Agora jd vimos como sc pode acrescentar paraletismo a chips tinicos e a sistemas individuais adicionando um 
co-processador. A próxima etapa e ver como multiplas CPUs totalmente desenvolvidas podem ser combinadas para 
fonnar sistemas maiores. Sistemas com vdrias CPUs podem ser divididos em multiprocessadores e multicomputa 
dores. Após vermos com atenęao o que esses termos realnienie significatn, estudaremos primeiro niultiproeessado- 
res e, em seguida, niulticomputadores. 

8.3.1 Multiprocessadores versus Multicomputadores 

Em qualquer sislema de computaędo paralelo. CPUs quc irabalham em partes diferentes do mesmo servięo 
devcm sc comunicar umas com as outras para trocar infonnaęóes. Exatamentc como clas dcvem fazer isso ć assun- 
to dc muito debatc na comunidadc da arquilclura dc computadores. Dois projetos distintos forain proposlos e imple- 
mentados: multiprocessadores e multicomputadores. A diferenęa fundamenta! entre os dois i a presenęa ou ausen 
cia de memória compartilhada. Essa di Cerem,-a interferc no modo como sao projetados. conslrufdos e programados. 
bem como em sua escaln e preęo. 

Multiprocessadores 

Um computador paralelo no qual todas as CPUs compartilham urna memória comum e denominado um mul 
tiprncessador. como indicado simbolicamcnie na Figura 8.15. Todos os processos que funcionam juritos em um 
multiprocessador podem compartilhar um tinico espaęo de endereęo virlual mnpeado para a memória comum. 
Qualquer processo pode ler ou escrevcr urna palavra de memória apeitas cxecutando urna instruędo I.OAD ou 
STORĘ. Nada mais ć preciso. O hardware faz o resto. Dois processos podem se comunicar pelo simplcs nlo dc um 
dcles cscrever dados para a memória e o outro os ler de volta. 

A capacidade de dois (ou mais) processos sc comunicarem apenas lendo e escrcvendo na memória i a mzilo por 
quc os multiprocessadores sflo populares. E um modclo facil de entender pclos programadores e ó aplicdcel a urna 
ampla faixa de problcmas. Considere. por exemplo, um programa que inspeciona urna imagem dc mapa de bits c rcla- 
ciona todos os objclos ali encontrados. Urna cópia da imagem ć tnanlida na memória. como mostra a Figura 8.l5(b). 
Cada urna das 16 CPUs cxccuta um ónico processo, ao qual foi designada urna das 16 seęócs a analisar Nflo obstan¬ 
ie. cada processo tern acesso & imagem inteira, o que ó essencial, visto que alguns objetos podem ocupar vdrias scęóes. 
Se um processo descobrir que um de seus objclos se estende para alóm da fronteira de uma seęao. ele apenas segue o 
objęto na pnixima seę9o lendo as palavras dessa seęio. Nesse exemplo, alguns objetos serilo descobcrtos por vdrios 
processos. portanto 6 preciso uma certa coordenaęao no finał pani determinar quantas casas. drvores e aviócs hd. 

Como todas as CPUs em um multiprocessador v6em a niesma imagem de memória. hd somente uma cópia do 
sistema operacional. Por conseqiiencia, hd somente um mapa dc pdginas e uma tabela ile processos. Quandn um 
processo bloqueia. sua CPU salva seu estado nas tabclas do sistema operacional e entdo consulta essas tabelas para 
achar um outro processo para executar. E esse sistema de uma unica imagem que distingue um multiprocessador de 
um multicomputador. no qual cada computndor tern sua própria cópia do sistema operacional 

Um multiprocessador, como todos os computadores, deve ter dispositivos dc E/S, como discos, adaptadores de 
rede e oulros cquipamcntos. Em alguns sistemas multiprocessadores. somente certas CPUs tem acesso nos disposi- 
tivos de E/S. e. por isso, tćm uma funędo de E/S cspccial. Em outros. toda CPU tein igual acesso a todo dispositi- 
vo dc E/S. Quando cada CPU tem igual acesso a todos os módulos de memória e a todos os dispositivos de E/S e ć 
tratada pelo sistema operacional como inlcrcambiłivel com as outras. o sistema ć denominado SMP (Symmetric 
MultiProecssor — multiprocessador simćtrico). 
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Multicomputadores 

O segundo projeto possivel para uma urquilelura paralela e urn projeto nu qual cada CPU [cni su a própria mcmó- 
ria privada, acessfvel somente a da mesma e a nenhunia outra CPU. Esse projeto e denominado multicomputador ou, 
as vezes, sistema (li- inemória dislrihuida, e e ilustradu na Figura 8.16(a). O aspecto fundamental de uni multicom- 
puiadur que o ilisiingue de um multiprocessador e que cada CPU era ura multicomputador tein sua própria inemória 
iocal privada, u qual pode acessar apenas executando instruęóes LOAD e STORĘ, mas que nenliuina outra CPU pode 
acessar usando instruęóes LOAD e STORĘ. Assirn, raultiprocessadures tein um tinico espaęo de endereęo Esico com- 
partilhado por todas as CPUs, ao passo que multicomputadores tSm um espaęo de endereęo Esico para cuda CPU. 

Uma vez que as CPUs ein um multicomputador nao pudem se comunicar apenas lendo e cscrevendo na mcmó- 
ria comum, elas precisam de um mecanismo de comunicaęao diferente. O que elas fazem e passar mensagens uma 
para outra usando a rede de inlerconexao. Entre os exemplos de multicomputadores podemos eilar o IBM 
BlueGene/L, o Ked Storm e o clusler Google. 

A ausencia de inemória comparti Iliada em hardware em um multicomputador tem importantes implicaęóes 
para a estrutura do software. £ impossfyel ter um unico espaęo de endereęo virtual do qual e para o qual todos os 
processos pudem lei e escrever de e para toda a inemória apenas executando instruęóes LOAD e STORĘ em um mul- 
ticomputadur. Por cxemplo, se a CPU 0 (a que estd no canto superior esquerdo) da Figura 8.l5(b) descobrir que 
parte de seu objęto se estende ale a seęao designada & CPU I, ainda assim ela continua a ler memória para aeessur 
a eauda do aviao. Por outro lado, se a CPU 0 da Figura 8.16(b) fizer a mesma descoberta, ela nao pode apenas ler 
a inemória da CPU. Em vez disso, ela precisa fazer algo bem diferente para obter os dados de que necessita. 

Em particular, ela tem de descobrir (de aigum modo) qual CPU tem os dados que ela precisa e enviar a essa CPU 
uma mensagem requisitando uma cópia dos dados. Em seguida, normalnienie ela bloquearii ate que sua requisięao seja 
atendida. Quando u mensagem chegar a CPU I, o software ali presente tem de analisa-la e enviar os dados necessd- 
rios. Quando a mensagem de respostu voltar a CPU 0, o software 6 desbloqueado e pode conlinuar a executar. 

Em um multicomputador, a comunicaęao entre processos costuma usar primilivas de software tais como send 
e receive. lsso da uo software uma estrutura diferente e muiło tnais complicada do que para um multiprocessador. 
Tarabem signitica que subdividir os dados corretamente e posiciond-los em localizaęóes ótimas e uma questdo 
importanle em um multicomputador. Nao ó tao importante em urn multiprocessador, visu> que o posicionamenlo 
nao afeta u correędo ou a programabilidade, embora possa afetar o deseinpenho. Em suma, programar um multi¬ 
computador e muilo rnais diffcil do que programar um multiprocessador. 

Nessas condięóes, por que alguem construiria multicomputadores, quando multiprocessadores sao mais faceis 
de programar? A respostu e simples: e muito mais simples e mais baralo construir grandes multicomputadores do que 
multiprocessadores eom o mesmo mimero de CPUs. Implementar uma memória compartilhuda, ainda que seja para 
algumas cenlenas de CPUs, e uma empreitada substancja!, ao passo que construir um multicomputador cotn 10 mil 
CPUs, ou mais, ć direto. Mais adianle neste capftulo estudaremos um multicomputador com mais de 50 mil CPUs. 

Portanto, icmos um dilema: multiprocessadores sao diffceis de construir, mas fdceis de programar, enquanto 
multicomputadores sao faceis de construir, mas dificeis de programar. Essa observaęao gerou muilo esforęo para 
construir sislemas hfbridos que sao relulivainente filce i s de construir e relativamente faceis de programar. Esse tra- 
balho levou a perccpęao de que memória compartilhada pode ser implemeutada de viirios modos, cada qual com 
seu próprio conjunto de vantagens e desvantagens. Na verdade, grandę parte da pesquisa atual nu drea de arquiletu- 
ras puralelas esta relacionada a coiwergencia entre arquileturas de multiprocessador e multicomputador para Ibrmas 
hfbridas que combi nam as foręas de cada uma. Neste caso, o Santo Uraal e achar projetos que sejain escalóvcis, isto 
e, que continuem a fuucionur bem d medida que mais CPUs sejam udicionadas. 

Uma abordagem paru a construęao de sislemas hfbridos e baseada no fato de que sisternas de computaęao moder- 
nos ndo sao monolfticos, mas eonstrufdos como inna sćrie de camadas — o tema desie livro. Essa perccpęao abre a pos- 
sibilulade de implementar a memória compartilhuda em qualquer uma das varias camadas, como mostra a Figura 8.17. 
Na Figura 8.17(a) vemos a memória compartilhada implementada pelo hardware como um verdudeiro multiprocessa¬ 
dor. Nesse projeto ha uma unica cópia do sistema operacional com um unico conjunto de tabelas, em particular, a tabe¬ 
la de alocaęao de memória. Quando um processo precisa de mais memória, recorre ao sistema operacional, que entao 
procura cm sua tabela uma pagina lis re e tnapeiu a pdgina para o espaęo de endereęo do processo chamador. No que 
coneeme ao sistema operacional, hd uma unica memória, e ele monitora em software qual processo possui cjual pdgi- 
na. Hd muilos modus de implementar inemória compartilhada cm hardware, como vcremos mais adianle. 

Uma segunda possibilidade e usar hardware de multicomputador e fazer com que o sistema operacional simu- 
le memória compartilhada proporcionando um dni co espaęo dc endereęo virtual de compartilhamento de pdginas 
no diubilo do sistema inteiro. Nessa abordagem, denominada DSM (Distributed S ha red Memory — Memória 
compartilhada dislribuidu) (Li e Hudak, 1989), cada pagina esta localizada em uma das memórias da Figura 
8.l6(a). Cada mdquina tem sua própria memória viilual e suas próprias tabelas de pdginas. Quando uma CPU faz 
uma LOAD ou uma STORĘ em uma pagina que ela nao tem, ocorre uma exceęao para o sistema operacional. Entao, 
o sistema operacional localiza a pdgina e solicita a CPU que a contem no momento em questao que desmapeie a 
pagina e a envie pela interconexao de rede. Quando chega, a pdgina ć mapeada para dentro e a inslruęao que falhou 
e reiniciada. Na verdade, o sistema operacional estd apenas atendendo faltas de pdginas a partir de memórias renio- 
tas em vez de a partir de disco. Para o usudrio, parece que a mdquina tem memória compartilhada. Examinaremos 
a DSM mais adianle neste capftulo. 
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|a| Multicomputador com 16 
CPUs. cada uma com sua 
própria memórla privada. 

(b| Imngem de mapa de bita 
da Figura 8.15 subdividida 
entre as 16 memórias. 
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linia tcrceira possibilidadc e fazer com que um sistema de exccttęilo de nfvcl usuario. possivelmenlc especffi- 
co para uma linguagem, implemcntc uma forma de memória compartilhada. Nessa ahordagcm. a linguagem de pro- 
granmęflo provfi algum tipo dc abstraęSo de memória compartilhada, que enlao ć implementada pelo compilador e 
pelo sistema dc execuęSo. Por excmplo, o modelo Linda ć baseado na abstraę3o dc um espaęn compartilhado de 
tuplas (registros de dados que contem uma coleęao de campus). Processos em qualquer maquina |xnlcm prtłduzir 
cntrada dc uma tupią a partir do cspaęo compartilhado de tuplas ou produzir salda de uma tupią para o espaęo com¬ 
partilhado de tuplas. Como o acesso ao espaęo dc tuplas ć inteiramente conlrolado em software — pelo sistema de 
execuęilo Linda —, nilo e preciso nenhum hardware especial ou suporte de sistema operadonal. 

Um outro excmplo de memória compartilhada cspeclfica de linguagem implementada pelo sistema de execu- 
ęao i o modelo Orca de objetos de dados compartilhados. Hm Orca, os processos compartilham objetos genćricos 
ern vez de apenas tuplas e podem executar neles mćtodos especlficos de objetos. Quando um metodo muda o esta- 
do interno de um objęto, cabe ao sistema de execuęśio garantir que lodas as cópias do objęto em todas as tnaquinas 
sejam atualizados simultaneamcnte. Mais uma vez, como objetos sao um conceito estritamente de software, a 
implcmcntaęao pode ser feita pelo sistema de cxecuęao sein ajuda do sistema operadonal ou do hardware. 
Gxaminaremos umbos, Linda e Orca, mais adiante neste capltulo. 


Taxonomia de computadores paralelos 

Agora vamos voltar a nosso lópico principal. a arquitetura dc computadores paralelos. Muitos tipos de 
computadores paralelos jd forom propostos c construldos ao longo dos anos. Portanto, ć naiural pergunlar se hd 
alguma maneira de calegorizd-los em uma taxonomia. Muitos pesquisadores tentaram, com resultados mistos 
(Hlynn. 1972: e Treleaven. 1985). Infelizmente. o Carolus Linnaeus' da coniputaęilo paralela ainda estd para 


. Carolus Linnaeus 11707 1778) fol o biólogo sueco t|ue imeniou o sislenin usndo agora para clnssillcar todas as plnrilns c animais cm 
reino, filo, classe, ordcin. familia, gfinero c espćcic. 










iii linia 8.3 Taxonomia de Flynn para computadores paralelos. 


1 Fluxos de instruęóes 1 

Fluxos de dados 

Nome 

Exemplos j 

1 

1 

SISD 

Maąuina clśssica de Von Neumann 

1 

Multiplas 

SIMD 

Supercomputador vetorial. processador vetorial 

Multiplas 

1 

MISD 

Nenhiim, possivelmente nenhuni 

Multiplas 

Multiplas 

MIMD 

Multiprocessador, multicomputador 


surgir. O esquema dc l-lynn, o unico que e muito usudo, e dudo na Tabela 8.3, e mesmo esle e, na melluir das hipó- 
leses, urna aproximaęao muito grosseira. 

A classilicaęa«> dc Flynn 6 hascada cm dois conceilos fluxos de instruęóes e fluxos dc dados. Urn lluxo de 
instruęóes corresponde a lim contador dc programu. Urn sisicma cum n CPUs icm n eontadores dc programu, por 
conseguime, n fliuos dc instruęóes. 

O Huxo ile dados consistc cm urn conjunto de opcrandos. () cxemplo do ciilculo dc icmperulura que demos 
unieś Icm yririos Ilu sos dc dados, um para cudu sensor. 

Os lluxos dc inslruęfics c de dados s3o, ute certo ponto, independentes, ponanto existcm quatro comhinaęócs, 
como rclacionadas na 'Tabela 8.3. S1SD ć apenas o cldssico coruputador seqiicncial dc Von Ncuinunn. Ele tein utn 
Huxo de instruęóes. um lluxo dc dados c Ta/ urna coisa por vc/.. Maquinas SIMO tem urna unita uuidudc dc con- 
trolc quc cmitc urna lustru 1,^0 por vez, mas clas tern nuiltiplas ALUs para executa-lus cm varios conjuntos dc dados 
sinuiltaneatucnlc. O ILLIAC IV (Figura 2.7) ć o protótipo das nuiquinas SIMD. 

As mdquinus SIMD estao ficando cada vez mais raras, mas computadores couvcncionais 3s vezes tern algu- 
mus instruęóes SIMD paru processamcnto dc materiał audiovisuał. As instruęóes SSE do Pentium sao SIMD. Nao 
obstanie, lid unia nova arcu nu qual algumas das idćias do ntundo SIMD estao desempenhundo um pupel: processa- 
dores dc fluxo. Essus mdquinas sao projetadas especiticumenic para tratar dcmandas de eulrega de niultimfdia c 
pudem se tornar imporlanies no futuro (Kapusi et ul., 2003). 

As mdquinas MISI) sdo urna cutegoria um tanio estrunhu, com multiplas instruęóes operando no mesmo dado. 
Nao esta ciuro sc tais mdquinas existem, crnbora haja quem considere como MISD as mdquinas com pipeline. 

Por firn. tentos MIMI), que sao apenas multiplas CPUs independentes operando como parte de um sistema 
maior. A muioria dos proccssadores paralelos cai nessa calegoriu. Ambos, multiprncessadores c mullicoinputudores 
sao maquinas MIMI). 

A tasonoinia de Flynn pdru aqui, mas nós u ampliumos nu Figura 8.18. A SIMD loi subdividida cm dois suh- 
gnipos. O primeiro e para supercomputudorcs numdricos c outrus mdquinas quc operum solne \etorcs, efetuando a 
mesma operuęoo ciii cada elemento do vetor. O segundo e para nulquinas do tipo paralelo como ILLIAC IV, nu qunl 
urna unidudc mestru dc controle ininsmite instruęóes para muilus ALUs independentes. 

Em nossa laxonomia, u cutegoria MIMD foi subdivididu cm inultiprocessadores (m>1quinus dc memória coin- 
partilhadat e multicomputadores tmaquinas de troć a de mensugens). Existem trćs tipos de inultiprocessadores, dis- 
linguidos pelo modo como u memória companilhudu e neles implementada. Eles s3o denoininudos UMA (Unifurm 
Memory Access — acessn unifurme 3 memória), NUMA (NonUniforni Memory Access — acessu nao unlfor- 
me a meinória) e C OMA tCuclie Only Memory Access — acesso somente a memória cache). lissas categorius 
existem porque, em grandes inultiprocessadores, a memória costuma ser subdivididu em vdrios módulos. A proprie- 
dude dis(intiva das inaquinas IJ MA e que cada CPU tern o mesmo tempo de acesso a lodos os módulos de memória. 
Em outrus puluvras. cada palavra de memória pode ser liila tao rapidamente quanto qua!quer oiitra palavra de memó¬ 
ria. Se isso for tecnicamente impossfvel, a velocidade das referSncias mais rńpidas ć reduzida para que se compati- 
bilizcin com as mai> lentas, portanto os programadores nilu v6cm a diferenęa. E isso que 'uniforme* significa neste 
caso. Essa unifunnidadc toma o desempenho previsfvel, um fator importante para escrever código eficiente. 

Por companięiio, essa propriedade n3o 6 viilida em um multiprocessador NUMA. Muitus vezes lid um módu- 
lo de memória próxtmo a cada CPU e acessar aquele módtilo de memória e mais rdpido do que acessar os distan- 
tcs. O resultado ć que, por questóes de desempenho, o local onde o código e os dados sao posicionudos e importan- 
te. Maquinas COMA lumbein sao naivuniformes, mas de um modo diferente. Estudaremos detalhadamente cada 
um desses tipos e suas subcategorias mais adiante. 

A outra cutegoria principal de maquinas MIMD consiste nos multicomputadores, quc, diferenlemcntc dos 
multiprocessadores. nao tein memória pritnariu compartilhudu no nfvel da arąuitetura. Em outras palavras, o sis- 
teinu operacional em urna CPU dc multicomputador ndo pode acessar memória ligadu a urna CPU diferente ape¬ 
nas execulando urna inslruęflo LOAD. Ela tern de enviur inna mensagem explfcita e esperar urna resposta. A capa- 
cidade do sistema operacional de ler urna palavra distunte apenas executando urna LOAD ć o que distinguc 
multiprocessadores dc multicomputadores. Como mcncionumos unieś, mesmo em um multicomputador progru- 
mas usuarios podem ler u capacidade de acessar memória rcmota usando instruęóes LOAD e STORĘ, mas essa ilu 
sflo e suportada pelo sistema operacionaL e nao pelo hardware, lissa diferenęa 6 sutil, mas muito importante. Como 
multicomputadores uuo tein acesso direto h memória remotu. &s vezes eles sao denominados maquinas NORMA 
(NO Kemotc Memory Access — sem acesso a memória reinola). 
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Os tnulticomputadores pudem ser divididos ern duas catcgorias. A primeira categoriu contćm os MPPs 
(Massively Parallel Processors — processadores de paralelisitio rnacięo) quc sao supercomputadnrcs caros que 
consistcm em muitas CPUs rortemente acopladas por uma rede de interconcxAo proprietdria de alla velocidadc. O 
IHM SP/3 ć urn cxemplo hem conhecido no mercado. 

A outra categoria consiste cm PCs ou estaęOes de trabalho comuns, possivelmcnte monlados em estantes c 
conectados por lecnologia de intcrconexAo comcrcial. de pratelcira. Em termos de lógica nAo htl maila difcrenęa. 
mas supercompatadores enormes qae custam niuitos niilhOcs dc dólares sAo usados dc modo diferente dc redes de 
PCs nrontadas pclos usudrins por uma fraęAo do preęo de urn MPP. F.ssas mdquinas caseiras sAo coijhccidas por 
vdrios nonics. entre eles NOW (Network of Workstations — rede de estaęóes de trahallio). COW (('luster of 
Workstations — grupo de estaęńcs de trabalho). ou. As vc/.cs. apenas cl lister (grupo) 

8.3.2 Semantica da memória 

Ainda quc todos os muItiprocessadores aprescnlem its CPUs a imagom de urn dnico espaęo de endereęo com- 
partilhado. muitas ve/cs cstAo presentes niuitos tnódulos de memória. cada um contendo algurna poręAo da memó¬ 
ria ffsica. As CPUs c memórias muitas ve7es sAo conccladas por uma complexa rede de iiltercimexAo. como discu- 
timos na SeęSo S.1.2. Uiversas CPUs podcm estar tentando ler uma palavra tle memória ao mesmo tempo em que 
vdrias outras CPUs eslAo tentando escrever a mesma palavra, e algumas das mensagens tle requisięao podem ser 
ultrapassadas por outras em trAnsito e ser entregues em uma ordom diferente da que foram emitidas. Alem desse 
problema liii a exist6ncia de multiplas cópias de alguns blocos de memória (por cxemplo. em caches). o que potle 
resultar em caos eom muila facilidade, a menos quc sejam tomadas medidas rigorosas para evita-lo. Ncsta seęao 
veremos o quc rcalmente significa memória cotnpartilliada c veremos como memórias podcm reagir razcavelmen- 
te sob essas circunstancias. 

Um modo tle ver a semAntica de memória e como um contrato entre o software c o hardware de memória 
(Adve e Hill, 1990). Se o software concordar em obedecer a certas regras. a memória conconla em entregar certos 
rcsultados e, entAo. a discussao fica centrada em quais sAo essas regras. Elas sAo denominadas modelos de consis- 
tencia e muitos modelos diferentes jd foram propostos e implementados. 

Para dar uma idćia do problema. suponha que a CPU 0 cscrcvc o valor I em algurna pa1avta de memória e. um 
pouco tnais larde, a CPU 1 escreve o va!or 2 para a mesma palavra. Agora a CPU 1 16 a palnvra e obtćm o valor 2. 
O proprietdrio do computador devc lcvar sua maquina para conscrtar? Isso dejrende do que a memória prometeu 
(scu contrato). 

Consistencia estrita 

O modelo mais simples 6 o da consistencia estrita. Com esse modelo. qualquer leitura para uma localizaęao 
x sempre reloma o valor da escrita mais recente para x. Programadores adoram esse modelo. mas, na vcrdadc, ele 
ć efelivamentc impossivel de implementar dc qualquer outro motlt) que nAo seja ler um dnico módulo de memória 
que simplesmente atende a todas as requisięócs segundo a politica primeiro a chegar, primeiro a ser atendido. sem 
cache nem duplicaęao de dados. F.ssa implcmentaęao transformaria a memória em um imenso gargalo c. ptirtanlo. 
nAo e uma candidata seria, infelizmente. 

Consistencia seąuencial 

O segundo melhor ć um modelo denominado consistencia seqiicneial (Lamport. 1979). Nessc caso. a idćia 6 
quc, na preseuęa de multiplas requisięóes de leitura e escrita. o hardware cscolhe (sem delerminismo) algurna inter 
cala^Ao de todas as requisięóes. mas todas as CPUs v6em a mesma ordeni. 
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Para entender o que isso signilica, considere um exemplo. Suponlm que a CPU 1 escreve o valur 10() para a 
pulavra ,v, e 1 ns mais tarde a CPU 2 escreve o valor 200 para a palavra v. Agora, suponha que 1 ns após a segunda 
escrita ler sido emiiida (mas nao necessariamente ainda conclufda) duas ontras CPUs, 3 e 4, leem a palavra x duas 
vezes cada urna cni rdpida sucessao, como moslra a Figura 8.I9(a). Tres posslveis ordenaęóes dos seis eventos (duas 
escritas e quatro leituras sao mostradas na Figura 8.19 (b)-(d), respcclivamente. Na Figura 8.19(b), a CPU 3 oh tern 
(200, 200) c CPU 4 obtem (200, 2(X)). Na Figura 8.19(c), elas obtem (100, 200) e (2(8), 200), respeclivamente. Na 
Figura 8.19(d), clas obtfim (100, 1(K)) c (200, 100), respectivamenle. Todas cssas sao legais, hem como algumas 
ouiras possibilidades que nao sao mostradas. 

Coniudo - c cssa e a cssencia da consistencia scqllencial —, nao importa o que aconleęa, urna memória 
seqilenciulinentc consistcnte nunca perniitird que a CPU 3 obtcnha (100, 200) enquanto a CPU 4 oblćm (200, 
100). Se isso vicssc a ocorrer, significaria que, de acordo com a CPU 3, a escrita de 100 pela CPU 1 concluiu 
após a escrita dc 200 pela CPU 2. Tudo hem! Mus lambem significaria que, de acordo com a CPU 4, a escrita de 
200 pela CPU 1 concluiu antes da escrita de 100 pela CPU 1. Em si, esse rćsultado tumbćm i possfvel. U pro- 
blcnta e que a consistencia seqiiencial gurante que ha urna tinica ordenuęao global de todas as escritus quc ć visi- 
vel para todas as CPUs. Se a CPU 3 observar que 100 foi escrito em primciro lugar, entflo u CPU 4 lambem deve 
ver essa ordem. 

Emboru u consistencia seqilencial nao seja urna regra tao podcmsa ijuanto a consistencia estrita, ainda ć muilu 
lilii. Na senlade cla di/ que, quando tnulliplos eventos estao acontecendo concorrentemenle, ha alguma ordem ver- 
dadeira na qual des neonem, possivelmente determinada pela temporizaęao e pelo acaso, mas existe unia ordena- 
ęao \erdadcira e lodos os processadores observam essa mestna ordem. Embora essa afirmativa talvez pareęa óbvia, 
a seguir discutiremos modelos de consistencia que nem isso garantem. 

Consistencia de processador 

Um modelu de consistencia menos rigoroso, mas que e mais facil de implententar em grandes multiprocessa- 
dores, e a consistencia de processador (Goodman, 1989). Ele tern duas propriedades: 

1. Escritas por qualquer CPU sao vistas por todas as CPUs na ordem em que foram emitidas. 

2 . Para cada palavra de memória, todas as CPUs vSem todas as escritas para ela na mesma ordem. 

Esses tiois pontos sao importuntes. O primeiru ponlo di/ que, se a CPU I emitir escritas com valores I A, IB 
e 1C paru alguma locali/aęao de memória nessu seqiiencia, entao lodos os oulros processadores as veem nessa 
ordem tumbem. Em outras palavras, qualquer outro processador em um laęo reslrito que observasse 1 A, IB e 1C, 
lendo as palavras escritus, nunca verd o valor escrito por 1B e depois o escrito por IA e ussim por dianie. O segtui- 
do ponlo ć necessdrio para exigir que toda palavra de memória tenlia um valor nao ambtguu upós varias CPUs escre- 
verem para ela c. por firn, pararem. Todos tern que concordar sobre qual veio por ultimo. 

Mesmo com essas restrięóes, o programador tern muita ilexibilidade. Considere o que acontece se a CPU 2 
emitir escritas 2A, 2B e 2C concorrentemente com as irćs escritas da CPU 1. Outras CPUs que estilo ocupadas lendo 
memória obsemrSn alguma intercalaęao de seis escritas, tal como 1 A, IB, 2A, 2B, 1C, 2C ou 2A, 1 A, 2B, 2C, IB, 
IC ou muitas outras. A consistśncia de processador nao garante que loda CPU ve a mesma ordenuęao, diferen- 
temente da consistencia seqiiencial, que da essa garantia. Assim, & perfeitamente legftimo que o hardware se com- 
porte de lal maneira que algumas CPUs veem a priineira ordenaęao acima, algumas veetn a segunda e algumas 
veem ainda outras. O que i- garantido e que nenhuma CPU veró a seqiiśncia na qual 1B vem antes de 1A e assim 
por dianie. A ordem com qtte cada CPU faz suas escritas 6 obscrvada em todos os lugares. 

Vale a pena notar que alguns autores definem consistencia de processador de modo diferente e nao requercm 
a segunda condi^ao. 

Consistencia fraca 

Nosso próximo modelu, a consistencia fraca, nem mesmo garante que escritas de unia unica CPU sejam vistas 
em ordem (Dubois et al., 1986). Em unia memória 1'racamenle consistcnte, unia CPU poderia ver 1A antes de IB e 
urna u utrą CPU poderia ver IA depois de 1B. Contudo, para colocar alguma ordem no caos, niemórias fracamente con- 
sislenies tern vat iaveis de sincroni/.aęao ou urna operaęao de sincronizaęSo. Quando unia sincroni/aęao 6 executada, 
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todas as escritas pemlentcs sao terminadas e nenhuma nova e iniciada atć que (odas as antigas estejam conclufdas e 
a própria sincronizaęao tambćm esteja conclufda. Na verdade, uma sincronizaęio ‘descarrega o pipeline' e leva a 
memória a um cstado estiWel sem nenhuma operaęSo pendente. Operaęóes de sincroniznęAo s8t>, cm si. scqUencial- 
mente consistentes. isto ć, quando multiplas CPUs as emitem, alguma ordom ć escolhidu. mas todas as CPUs vfcm 
a mcsma ordem. 

Hm consistSncia fraea. o tempo ć divididn cm ćpocas hem deflnidas delimiladas pelas sincronizaęóes (seqlien- 
cialmente consistentes). como ilustra a Figura 8.20. Nenhuma ordem rclativa ć garantida para IA e IR e difcrcntes 
CPUs podcm vcr as duas escritas em ordens diferentes, isto ć. uma CPU pode vcr IA c entiio IB c uma outra CPU 
pode ver IB e entao I A. Essa sitttuęao ć permitida. Contudo. todas as CPUs v8em 1B antes dc IC porque a primei- 
ra operaęao de sincronizaętlo foręa 1A. IB e 2A a conclufrem antes quc 1C. 2B. 3A ou 3B tenham permissAo de 
iniciar. Assint, rculizando operaęóes de sincronizaęAo, o software pode impor alguma ordem na seqU<?ncia dc even- 
tos. embora nao a custo /.cm. vislo que dcscanegar o pipeline de memória toina um certo tempo. 

Consistencia de liberaęao 

A consistSncia fraca tern o problema de ser hastante ineficicntc porquc dcve cnccrrar todas as operaęoes de 
memória pendentes e deter todas as novas atć que as operaęoes correntes tenham terminado. A consistencia de libe- 
raęao melhora as coisas adotando um modelo semelhante ao das seęócs crfticas (Gharachorloo et al.. 1990). A ideia 
que fundamenta esse modelo ć que. quando um processo sai de uma rcgi3o crftica nao ć necessćrio foręar todas as 
escritas a conclufrem imcdiatamcntc. Basta assegurar que clas estejam enccrradas antes que qualquer prdcesso entre 
naqucla regiao crftica novamente. 

Nesse modelo, a operaęfio de sincronizaęSo oferecida pela consistSncia fraca ć subdividida em duas operaęoes 
diferentes. Para ler ou escrcver uma vari3vcl de dados compartilhadu, uma CPU, isto ć, seu software. deve realizar. 
em primeiro lugar. uma operaęao acquire na variavel de sincronizaęSo para obter acesso cxdusivo aos dados com- 
parlilhados. Ent3o a CPU pode usd-los como quiser, lendo e escrevendo 3 vontadc. Ao concluii. a CPU rcaliza uma 
operaęao release na vari3vel de sincronizaęao para indicar que terminou. A release nao obriga as escritas pendentes 
a concluir. mas ela própria n3o conclui alć que as escritas emitidas anteriormente estejam conclufdas. Alćm do mais. 
novas operaęoes dc memória n5o s3o impetlidas de iniciar imediatamentc. 

Quando a prósima acquire ć emitida. ć feila uma vcrificaę3o para ver se todas as release anteriores forant eon 
clufdas. Se n3o forant. a acqulre ć detida atć que todas tenham condufdo c, por conseguinte. quc todas as escri¬ 
tas reaiizadas antes delas estejam conclufdas. Dcssc modo. sc a acquire seguinte ocorrcr em um tempo suficiente- 
mentc longo após a release ntais rccentc. ela nao tem de esperar antes de iniciar e pode entrar na rcgiAo crftica sem 
demora. Se a acqulre seguinte ocorrer logo após uma release. a acquire. e todas as Lnstruęóes após ela. serao retar 
dadas alć que Kulas as releases pendentes sejam conclufdas. garanlindo assim quc as vari9vcis na scęao crftica 
tenham sido atualizadas. Esse esqucnia ć ligeiramente mais complicado do que consistSncia fraca, mas tern a sig- 
nilicativa vantagem de n3o alrasar instruęóes cont tania frcqilOncin para manter consistfncia. 

A con.sistćncia de memória n3o ć um assunto encerrado. Os pcsquisadorcs ainda cstAo pro|iondo novos mode- 
los (Cain c l.ipasti. 2004; e Hammond et al., 2004). 


8.3.3 Arquiteturas simetricas de multiprocessador UMA 

Os multiproccssadorcs mais simples sao bascados em um unico barramento, como ilustrado na Figura 8.21(a). 
Duas ou mais CPUs e um ou mais módulos dc memória. lodos usam o mesmo barramento para comunicaę3o. 
Quando uma CPU quer ler uma palavra dc memória. em primeiro lugar ela verifica se o barramento cstA ocupado. 
Se o barramento estiver iKioso. a CPU coloca nele o endereęo da palavra que ela quer. ativa alguns sinais de con- 
tmle e espera alć quc a memória coloque a palavra desejada no barramento. 

Se o barramento estiver ocupado quando uma CPU quiser ler ou escrever na memória, a CPU apenas espera 
ate que o barramento fique ocioso. E ć aqui quc esta o problema desse projeto. Com duas ou tićs CPUs, a contcn 
ę3o pelo barramento serd administr3vel; com 32 ou 64. sera insuport.1vel. O sistema ficara lotalmente limitado pela 
largura de banda do barramento e a maioria das CPUs ficard ociosa a ntaior parte do tempo. 

A soluęao para esse problema ć acrescentar uma cachc a cada CPU, como retratado na Figura 8.21 (b). A cachc 
pode estar deutro do chip da CPU. próxima ao chip da CPU. na płaca do processador ou alguma combinaęSo de 
todas as trfis. Urna vcz que agora muitas leituras podcm ser satisfeilas pela cache loeal, haverd muito rnenos trdfe- 
go no barramento e o sistema pode suportar mais CPUs. Assim, nesse caso. fazer cache ć um grandę ganho. 


Trós multiprocesaadores 
baseados em barramento. 
|a| Sem cache |b| Com 
cache. (u) Com cache e 
memónas pnvudas_ 



Aiiiila umu outra possibilidadc ć o projeto da Figura 8.2 l(c), no quul cuda CPU lem nao somente uma cache, 
mas lumhćm umu memória lucal e privada que ela aces.su por urn barramcnto dedicado (privudo). Para lazur utili- 
zaęao dl i ma dessu configuruęiio, o compilador deve colocur nas memórias privadas todo o teslo de programu, todas 
as cadeias, constautes e outros dados somente de leitura, pilhas e varidveis locais. tiniao, a memória compurtilbadu 
só e usada para varidveis compartilhudas que podem ser escritas. Na maioria dos casos, esse posicionumento cuidu 
doso reduzird inuito o trśfego no barramcnto, mas requer cooperaęflo ativa do compilador. 

Caches de escuta 

Conquanto os argumeutos de desempenho que acabamos de apresentar certamentc sejam verdadeiros, ate- 
nuamos um problemu fundamcntal unt pouco depressa demais. Supoitha que a memória seja seqiiencialmenle 
consistente. O quc aeontece se a CPU I tiver uma liuha em suu cuchę e eniao u CPU 2 tentur ler uma palavru na 
mesrna linhu de cache? Na ausćncia de quaisquer regras espcciais, tambem ela obteria uma cópia em sua cache. 
Hm princfpio e uccttavcl fazer duus vezes a cache de uma rnesma linhu. Agora suponhu que a CPU I modifiquc 
a linhu e entdo, imediatamente após, a CPU 2 leia suu cópia da linhu a partir de sua cache. Hla obiera dados 
yelhus, violundo assim o contrato entre o software e u memória. O programu quc estd execulando na CPU 2 nao 
ileara feliz. 

Hsse problemu, couliccido como cocrencia de cache ou consistenciu de cache, e eslremamente serio. Sem 
umu soluęao, nao sc pode usar cache e os multiprocessadores buseados em hurramento ficariam limitados a duus ou 
tres CPUs. Como i onseqUćncia de sua importanciu ntuilus soluęóes forum propostus ao lougo dos unos, por exem- 
plo, Goodman. I ł >KA; e Papumurcos c Patel, 1984. limbom todos esses ulgoritmos de cache, denominudos protoco- 
ios de coerćucia de cache. apresentem diferenęas em detalhes, todos eles impedem que yersóes diferentes da 
mesrna lialia de cache uparcęom simultuneamente em duus ou mais caches. 

Hm todas as suluęócs, o controlador de cache ć projetudo especialmente paru pennilir que cle escute o hurra 
mento monitomndo todas as requisięóes de barramcnto de outras CPUs e caches e execute ulgumu aęao em certo* 
casos. Essćs dispositiyos sao denominudos caches de escuta ou, as vezes, caches de espia, porque ‘espiam’ o bur 
ramenlo. O conjunto de regras implementado pclus caches, CPUs e memória para impedir que diferentes vcrsóes 
dos dados upareęutn em nuiltiplas caches forma o prolocolo de coerćnciu de cache. A unidude de transferćnciu e 
annazenantento dc uma cache e denominada umu linha de cache e seu comprimento tfpico e 32 ou 64 bytes. 

O prolocolo de coerćncia de cache mais simples de todos e denominudo escrita direta. Hic pode ser mais hem 
entendido distingumdo os quatro casos mostrados na Tabela 8.4. Quundo umu CPU tentu ler uma pulavra que nao 
estii em suu cache isto ć, hu uma ausćncia da cache paru leitura , seu controlador de cache currega na cache a 
linhu quc contćm aqucla paluvra. A linhu ć fontecida pela memória, que. nesse prolocolo, estd sentpre alualizada. 
Leituras subseqUentes, isto ć, presenęas na cache para leitura, podem ser salisfeilas pela cache. 

Quundo lul umu ausćncia da cache para escrita, a palavra que foi motlificada ć escrita para u memória Princi¬ 
pal. A linhu quc contćm a palarni referenciudu nilo 6 carregadu na cuchę. Quundo ha uma presenęa na cache para 
escrita, u cache ć alualizada e. ulem disso, a palurra e escrita direlamente paru u memória principal. A essćncia desse 
prolocolo ć que todas as operuęócs dc escrita resultam na escrita da palavra direlamente para a memória para mamc¬ 
iu atualizudu o tempo todo. 

Agora vumos observar todas cssas aęóes novamente, mas desta vez, do ponto de vista da escuta, mostrado na 
colunu a direitu da luhclu 8.4. Vamos dar o nonie de cache 1 a cache que realiza as aęóes e de cache 2 & cache de 
escuta. Quundo a cache I cncontru uma ausćncia da cache para uma leitura, ela faz uma requisięao ao burramento 
para buscur uma linha da memória. A cache 2 vć isso, porćm nada faz. Quundo a cache I encontra uma presenęa na 
cache para leitura, a rcquisięao ć satisfeita localmenle e nćo ocorre nenhuma requisięao ao barramento, portanto a 
cache 2 nao estii ciente das presenęas na cache para leitura da cache I. 

Tabela u 4 Protocolo de coerencia de cache de escrita direta. Os retangulos 
vazios indicam que nenhuma aęao foi realizada. 


Aęao 


Roąulsięao local 


Requisięao remota 


Ausćncia da cache para leitura Busque dados da memória 
Presenęa na cache para leitura Use dados da cache local 
Ausćncia da cache para escrita Atualrze dados na memória 

Presenęa na cache para escrita Atualtze cache e memória Invalide entrada de cache 
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Escrilas s3o rnnis interessanles. Se a CPU I fizer unia escrita, a cache I fani unia requisię3o ile escrila no bar- 
ranienio, tanio quando houver ausencia da cache. como quando houver presenęa na cache. Hm todas as escritas a 
cache 2 vcrifica se ela tcm a palavra que esta sendo escrita. Se nao tiver, de scu ponto de vista islo e uma requisi- 
1 ,-ao/ausencia da cache rcniota e ela nada faz. Para esclarecer uin ponto sutil. notę que. na Tabela 8.4. uma nuseneia 
da cache reinota significa quc a palavra nao estti prescnte na cache de escuta; nao importa se ela estava on nao na 
cache do originador. Assirn. uma unica requisięuo pode ser uma prcsenya na cache localmentc e uma ausćnciu da 
cache na cache dc escuta. ou vicc-versa. 

Agom suponha que a cache I escreva uma palavra que estii presentc na cache da cache 2 i rcquisiv3o/prcsenęa na 
caclic rcmota para escrita). Se a cache 2 nada flzcr. tcrii dados vclhos. portanto ela marca como invdlida a entrada na 
cache quc contćm a palarni rccćm-modificada. Na vcrdade, ela remove o item da cache. Como lodas as cachcs esculam 
todas as requisięócs ao bamunento. seinpre quc uma palavra for escrita, o efcilo lfquido ć nlunli/a-la na cache do origi 
nador. utualizd-la na memória e extraf-la de lodas as outras caches. Desse modo s3o ciitiulas versóes inconsistcntes. 

E claro que a CPU da cache 2 estd livrc para ler a incsma palavra jd no ciclo scguintc. Nesse caso. a cache 2 leni 
a palavra da memória. quc estd atualizada. Nesse ponto. cache I. cache 2 e a memória. lodas terno cópias identicas da 
palavm. Se qualquer das CPUs fizer uma escrita agora, a cache da outra seni purgadu e a memória serii atualizada. 

Muitas variaęóes desse protocolo biisico s3o possfveis. Por exemplo, ern uma presenęa na cache para escrita. 
a cache de escuta normalnienie invalida sua entrada que contćm a palawa que estil sendo escrita. Como allernativa. 
poderia aceitar o noro valor e atualizar sua cache em vez de maredla como invdlida. Hm termos de conceilo, atua- 
iizara cache ć o mesmo quc invalida-la. seguida por uma leitura da palavra na memória. Hm todos os protocolos de 
cache deve ser feita uma cscolha entre uma estratćgia de atualizaęao e uma estratćgia ile invalida<,an lisses pro¬ 
tocolos funcionam de maneira diferente soh cargas diferentes. Mensagens de atualiza^ao carTegam cargas titeis 
maiores e, por isso, san maiores do que as de itivalidaę3o. mas podcm evitar futuras ausSncias da cache. 

Uma outra variante € carregar a cache dc escuta quando houver ausencia da cache para escrita. A correęao do 
algorilmo tuio ć afctada pelo carregamento. só o desempenho. A questao e: “Qual ć a probabilidade de uma palarni 
recćm-escrita ser escrita noramente dentro de pouco tempo?". Se for alta. hd algo a dizer cm faror de carregar a 
cache quando liourcr ausfincia da cache para escrita, conhecida como połiticn de alocaęao de escrita. Se for baixa. 
ć inelhor nao atualizar quando hourer ausencia da cache |iara escrita. Se n palarra for litlu dentro de curto cspaęo 
de tempo, dc qualquer modo ela serii carrcgada pela ausOncia da cache para leitura: ganha-sc pouco por carrcgd In 
ijuando hourer uma ausćncin da cache para escrita 

Como acontcce com muitas soluęóes simples, essa ć inencienle. Cada operaęlo dc escrita rai atć a memória 
passando pelo harrnmcnto, portanto. mesmo com uma niodesta quantidade dc CPUs, o bamunento sc tornarii urn 
gargalo. Para manier o trdfego no barramento dentro de limites. forarn inrentados outros protocolos de cache. Uma 
propriedade quc todos eles tćm ć que nem lodas as escritas v5o diretamentc para a memória. Em vćz disso. quan 
do uma linha de cache ć inodificada. um bit ć marcado dentro da cache, comunicando quc a linha de cache cstsl 
correta, mas a memória ml o estd. A certa altura essa linha suja tera de ser escrita de colta na memória. porem, pos- 
sirclmcnte após a rralizaędo dc muitas escritas para ela. Esse lipo de protocolo ć conhecido como protocolo de 
escrita retroatira. 

0 protocolo MESI de coerencia de cache 

Um protocolo popular de coerencia de cache de escrita retroatim e denominado MESI, o que representa as 
iniciais dos nomes dos quatro estados (M, E. S e I) que ela usa (Papamarcos c Patcl. 1984) Ele ć baseado no anli- 
go protocolo escrere urna vez (Goodman, 1981). O protocolo MESI ć usado pelo Pentium 4 e por muitas outras 
CPUs para espiar o barramento. Cada entrada de cache pode estar em um dos seguintes quntro estados: 

1. Inrdlido a entrada da cache n3o contćm dados rdlidos. 

2 . Compartilhado (shared) — nniltiplas cachcs poiłem conter a linha: a memória cst.1 atualizada. 

3. Exclusivo — ncnhuina outra cache contćm a linha; a memória estd atualizada. 

4. Modificado — a entrada ć valida; a memória ć itivdlida; nao existetn cópias. 

Quando a CPU ć iniciada pela primcira vez. todas as entradas de cache s3o marcadas como invdlidas. Na pri- 
nieira vez que a memória ć lida. a linha referenciada ć huscada na cache da CPU quc estii lendo a memória e mar- 
cada como estando no estado E (exclusivo). utną vez. que ela ć a linica cópia dentro dc uma cache. como ilustrado 
na Figura 8.22(a) para o caso da CPU I quc cst.1 lendo a linha A. Leituras subseq(lentes por aquela CPU usam a 
entrada que estii na cache e n3o passam |ielo barramento. Uma outra CPU tarnbćm pode btiscar a incsma linha e 
coliKa-la na cache mas. por causa da escuta. o portador original (CPU I) vć que n3o estd mais sozinho e anuncia 
no barramento que ele tumbćm tem uma cópia. Ambas as cópias s3o marcadas como estado S (compartilhado). 
como mostra a Figura 8.22(h). Em outras palavras, o estado S significa que a linha esta em uma ou em mais caches 
para leitura c a memória estd atualizada. Leituras subseqdentes por uma CPU para uma linha que ela colocou em 
cache no estado S n5o usam o barramento e n3o provocam mudanęa de estado. 

Agora considere o que acontece se a CPU 2 escrevcr para a linha de cache quc ela estii mantendo no estado S, 
Ela einite um sinal de invalidavao no barramento. informantlo a todas as outras CPUs para dcscartar suas cópias. A 
cópia que estd em cache agora passa para o estado M (modifteada). como mostra a Figura 8.22(c). A linha nSo ć 
escrita para a memória. Vale a pena observar que. se uma linha estiver no estado E quando for escrita. nenhum sinal 
ć necessdrio para invalidur outras caches porque tinlos sahem quc nao existe nenhuma outra cópia. 
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Ern segutdu considere u quc acontece se a CPU 3 ler a linha. A CPU 2, a quem a linha agora pertence, salw i|ue 
a cópia na nicnióriu nao ć vahdu, portanto da ativa urn sinal no banamcnto mionu,nulu a CPU 3 que laęa o favor dc 
esperar cnquauto elu escrevc a linha de volta para a memóiia. Quanio a CPU 2 concluir, a CPU 3 busca unia cópia e 
a linlrn 6 marcada como compaililhada em ambas as eaches, como niostra a Figura 8.22(d). Após isso, a CPU 2 cscre- 
ve a linha novamente, o que invalida a cópia que cstó na cacbe da CPU 3, como mostra a Figura 8.22(e). 

Por firn, u CPU I cscreve urna palavra na linha. A CPU 2 v£ quc urna escrita estd sendo lentada e aliva urn 
sinal de barramenio di/endo <i CPU I fazer o favor de esperar enquanio ela escreve sua linha de vnlta na meniória. 
Quando lermina, u CPU 2 marca sua própria cópia como invńlida. ja que sabe que urna oulra CPU csta prcstcs u 
moditica-la. Ncsse porno tcmos a siluaęao em que urna CPU estd escrevendo unia linha (|ue nao eslard na cachc. Sc 
a poliiica de alocaęao de escrita estiver em uso, a linha sera carregada na cache e niarcada como em estado M, como 
niostra a Figura 8.22(0- Se a poliiica de alocaęao de escrita ndo estiver em uso, a escrita ird diretamente atć a menió¬ 
ria e u linha nao ticard em cache cni nenhum lugar. 

Multiprocessadores UMA que usam comutadores crossbar 

Mcsino cum todas as possfveis otimizaęóes, a utilizaędo de urn unico barramento limila o tanianho de inulti- 
processador UMA a ccrca de 16 ou 32 CPUs. Para passar disso ć preciso um lipo diferente de rede de inlerconc- 
xao. O circuito mais simplcs para conectar n CPUs u k ineinórias e o coniutador crossbar mostrado na Figura 8.23. 
Comutadores crossbar sao utili/udos ha decadas em centrais de comutaęao telcłónica para conectar um grupo de 
linhas dc entrada a um conjunto de linhas de saidu dc um modo arbitrdrio. 

Em cada interseędo dc urna linha horizontał (de entrada) com unia linha vertical (de saida) esta um ponlo de 
cruzamenlo. Um |>onlo dc cru/amento e um pcqueno coniutador que pode ser abertu ou fechado elelricamente. 
dependemlo dc as linhas horizontał e vertical deverem ser ou nao ser conectadas. Na Figura 8.23(a) vemos trćs pon- 
los dc cruzamenlo lechados simultaneamente. o que permite conexóes entre os pares (CPU, nieinória) (001, (XX)), 
(101, 1011 e (110, 010) ao mesmo tempo. Muitas outras combinaęócs tanibćm sao possfveis. Na verdade, o ntitne- 
ro de combinayóes e igual ao numero de modos diferentes em que oito torres pudem ser posicionadas com seguran- 
ęa sobie utn tabuieiio de xadrc/. 
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Uma das propriedades mais interessantes do comutador crossbar ć que ele e urna rede sem bloqueio. o qtie 
significa que a nenhuma CPU 6 negada a conexao de que necessita porque algum ponto de cruzamcnto ou linha ja 
estd ocupado (considerando que o módulo de memória em si esteja disponfvel). Alćm do mais. niio 6 preciso pla- 
nejamento antecipado. Ainda que ja estejam estabelecidas sete conexóes arbilrarias, sempre e possfvel conectar a 
CPU restante it memória restante. Mais adiante veremos esquemas de interconexiio quc nńo tem essas propriedades. 

Uma das piores propriedades do comutador crossbar ć o fato de que o ntimero de pontos de cruzamento tres¬ 
ce com n 2 . O projelo dc comutadores dc barras cruzadas e viavel para sistemas de tamanho mćdio. Discutiremos 
urn desses projetos, o Sun Fire E25K. mais adiante ncste capflulo. Contudo. com mil CPUs e nul módulos de memó¬ 
ria, precisamos de um milhao de pontos dc cruzamento. Urn comutador crossbar desse tamanho nao e vii1vel. 
Prccisamos de algo bcm diferente. 

Multiprocessadores UMA que usam redes de comutaęao multiestagios 

Esse ‘algo bem diferente' pode ser baseado no modesto comutador 2X2 niostrado na Figura 8.24(a). Esse 
comutador tem duas enlradas e duas saidas. Mensagens que chegam em (|ualquer uma das linhas de entrada podem 
ser comutadas para qualquer das linhas de safda. Para a linalidade que pretendcmos aqui. as mensagens conterao 
ate quatro partes, como mostra a Figura 8.24(b). O campo Módulo informa qual memória usar. O campo Endereęo 
cspecifica um endcreęo dentro de um módulo. O campo Opcode da a operaęao. tal como READ ou WRITE. Por firn. 
o campo Valor Opcional pode conler um operando, tal como uma palavra de 32 bits a ser escrita em uma operaęao 
WRITE. O comutador inspeciona o campo Módulo e o utiliza para determinar se a mensagem deve ser enviada por 
X ou por Y. 

Nossos comutadores 2X2 podcni ser organizados de muitos modos para construir redes de comutaęao mul- 
tiestagios maiores. Uma possihilidade e a rede omega, classe econOmica, sem supćrfluos, ilustrada na Figura 8.25. 
Nesse caso. conectamos oito CPUs a oito memórias usando 12 comutadores. Dc modo mais geral. para n CPUs e 
n memórias precisarfamos de log 2 /i estagios. com n/l comutadores por estdgio, para um total de (n/2)log 2 n comu¬ 
tadores, o que 6 muilo melhor do que ir pontos dc cruzamcnto, cm especia! para valores grandes de n. 

O padiiio de fiaęilo da rede Omega costuma ser dcnominado einbaralhamentu perfcito. visto que a mistura 
dos sinais em cada cstagio e pnrccida com um baralho que ć cortado ao meio e entao embaralhado carta por carta. 
Para ver como a rede Omega funciona, suponha que a CPU 011 queria ler uma palavra do nimlulo de memória 110. 
A CPU envia uma mensagem READ ao comutador ID que contem 110 no campo Módulo. O comutador pega o pri- 
nieiro bil dc 110, isto ó. o bit da exlrema csquerda. e o utiliza para roleamento. Um 0 roteia para a safda superior e 
um I roteia para a inferior. Uma vez que esse bil <5 um 1. a mensagem e roteada para 2D por meio da safda inlerior. 

Todos os comutadores do scgundo estagio, incluindo 2D, usam o segundo bit para roleamento. Esse bit lam- 
bćm e um 1, portanlo a mensagem agora ć repassada para 3D por meio da safda inlerior. Nesse ponto o tercciro bit 
e teslado e verifica-se que € um 0. Por conseqUSncia, a mensagem sai pela safda superior e chega h memória 110, 
como desejado. O caminho pcrcorrido por essa mensagem 6 inarcado pela letra a na Figura 8.25. 

Figura 8.24 

(a) Comutador 2X2. 

jb) Foimato de mensagem 
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A medida que a mensugein percorre a rede de comutaędo, os hits da extremidude esquerda do módulo ja n5o 
sao mais neccssdrios. Kies podem muito hem ser usados para registrar ali o mimem da linha de entrada, de modo 
que a resposta possa enconlrar seu caminho dc volla. Para o caminlio o, as linhas de eulrada sao 0 (enlrada superior 
para UJ). I (enuuda interior para 2D) e I (enlrada interior para 3D), respeclivamente. A resposta e roteada ile volla 
usamlo Oli. s«i que, desla Wi, eta e lida da direita para a esquerda. 

Ao mesmo tempo em que tudo isso estd acontecendo, a CPU 001 quer escrever urna palavru paru o módulo de 
memória (M)|. Nesse caso aconlece urn processo analogu e a mcnsagem e roteada pelas safdus superior, superior e 
interior. respectivamente, murcudas com a lelra b. Quundo ela chega, seu eampo Módulo emitent 001, quc represen- 
la o caminho quc clu lomou. lima vez quc cssas duas requisięócs nao usam nenlium dos inesmos comutadores, 
linhas ou módulos de memória. elas poiłem prosseguir em paralelo. 

Agora considere o quc aconteceria se a CPU (MK) quisesse aeessar simullancamente o módulo dc memória 000. 
Sua requisiyao entrariu em conflito com u requisięao da CPU 001 no comulador 3A. lima dclas leria de esperar. 
Difęrenlemcntc do comulador de barras cru/adas, u rede ómega 6 urna rede com bloqueio. Nem Indos os conjun- 
los de rcquisięfies (widem ser processados simultaneamente. Piniom ocorrcr conflilos pela utilizaęflo de urn fio ou 
de um comulador, hem como enlre requisięóes paro a memória e respostas ilu memória. 

£ clurumente desejdvel espalhar us referćncias a memória uniformemente pelos módulos. Urna tecnicu comuin 
e usur os bils de ordom baixa como o niimero de módulo. Considere, por exernplo, um espaęo de endereęo por bytes 
para um compuiador que acessa principalmenie palavras de 32 bils. Os 2 bits de ordem baixa usuahnente serao 00, 
mas os 3 bils seguintes esiarao uniformemente distribuidos. Usando esses 3 bils como o niimero dc módulo, pala- 
vras cndcreęadus conseculivumenle esiarao em módulos consecutivos. Um sistemu de memória no qual palavras 
conseculivus esiao em módulos consecuiivos e denominado interculado Memórias iniercaladas maximizam para- 
lelismo porque grandę parte das rcfcrćncias a memória ć para endereęos consecutivos. Tamhem 6 possivel projelar 
redes de comulaęAo que nao s3o bloqueamcs e oferecem nuiltiplos caminhos de cada CPU u cada módulo de memó¬ 
ria, para disiribuir melhor o miłego. 

8.3.4 Multiprocessadores NUMA 

Nesta ultura dcve estar claro quc multiprocessadores UMA de um unico barramenlo em gcral sao limiludos u 
nao mais do que alguinas de/cnas de CPUs e que multiprocessadores crossbar ou comutados precisam de muito 
hardware (euro) e nao sao assim tao maiores. Para chegar a mais dc cem CPUs, alguma coisa tem de ser abandona- 
da. Usuulmente o que se uhundonu e a idćiu de que lodos os módulos de memória tenham o mesmo tempo de aces- 
so. Essa concessao lcva ii idóia de multiprocessadores NUMA (NonUniform Memory Access — acesso nao uni- 
forme a memória). Como seus primos UMA, eles fomecem um linico espaęo de endereęo para todas us CPUs, 
poróm, difereniemente das móquinas UMA, o acesso a módulos de memória local i mais rapido do que o acesso a 
módulos remotos. Assim, todos os programas UMA execuiarao sem alierayao cm móquinas NUMA, mas o deseni- 
penho serii piór do que em urna maquina UMA a mesnia velocidade de relógio. 

Mdquinas NUMA tfim trfis caraclerfsticas fundameniais que todas clas possuem e que, junlas, as distinguem 
de outros multiprocessadores: 

1. i Id um unico espaęo de endereęo vistvel a todas as CPUs. 

2. Acesso d memória remota e fcito usando inslruęócs LOAD e STORĘ. 

3. Acesso d memória remota ć mais lento do que acesso & memória local. 

Quundo o tempo de acesso k memória remota nao ć oculto, poripie nao hd cache, o sistema e denominado 
NC-NUMA Quando estdo presentes caches coerentes, ele ć denominado CC-NUMA (ao menos pelo pessoal 
do hardw'arcl. O pessoal do software cosluma denomind lo I)SM de hardware porque cle ć basicainente o 
mesmo que memória compurtilhada distribuida por software, mas implemcntudu pelo hardware usando urna pdgi- 
na de tamanho pcqueno. 
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Umas das primeiras mdquinas NC-NUMA (embora o nonie ainda nao livesse sido cunhado) liii a Camegic Mellon 
Cm*, ilustrada de fonna simplificada na Rgura 8.26 (Swan et al., 1977). Ela consistia eni u ma coleęSIo de CPUs LSI- 
11. cada unia com alguma memória endereęada por mcio de um barramenlo local. (A LSI-11 era urna vers9o de chip 
unico do DEC PDE-11. urn minicomputador popular na dćeada de 1970.) Adeinais, os sislcmas I .SI-11 erain conecla- 
dos por um barramento de sistema. Quando unia requisiędo de memória entrava em unia MMU, especinlmente mmli (i- 
cada, era feita urna verificaęSo para ver se a palavra necessdria estava na memória looal. Se estivessc, era enviada unia 
requisiędo pelo barramento local para obter a palavra. Se nao eslivesse, a requisięao era mleada pelo baiTamento de sis¬ 
tema atć o sistema que continlia a palavra, que. entao, respondia. Ź claro que a ultima demorava muito mais do que a 
primeira. Embora um programa pudesse ser executado alegremente a piutir da memória remota, cssa execuęao levava 
de/. vezes mais tempo do que se esse mesnto programa fosse execulado a partir da memória local 

A coerencia de memória ć garantida em unia mskjuina NC-NUMA porque nao ha cache presente. Cada pala- 
vra de memória reside em exatamente urna localizaęao. portanto nao ha perigo de urna cópia ter dados velhos: 
nao ha cópias. Claro que agora e inuilo importante saber qual e a pdgina que estd em qual memória. porque a 
penalidade sobre o desempenho no caso de ela estar no lugar errado e muito grandę. Por conseqii£ncia, mdqui- 
nas NC-NUMA usatn software claborado para mover paginas de um lado para outro de niodo a maximizar o 
desempenho. 

Normalmente lut um processo residentc denominado scanner de paginas (page scanner) quc executa com 
intervalo de poucos segundos. Sua tarefa e cxaniinar a estalfstica de utilizaęio e mover pdginas de um lado para 
outro na tentativa de melhorar o desempenho. Se a pdgina parece estar no lugar errado. o scanner de paginas a des- 
mapeia de modo quc a próxinia rcferćncia a ela causurd urna falta de pagina. Quando ocorrc a falta. ć tornada uiua 
decisilo sobre onde colocd-la. possivelmcnte em urna memória dilercnle daqueia em que estava antes. Para cvitar 
paginaęao excessiva, usualmente hd alguma regra afirmando que. unia vez posicionada, a pdgina e congelada no 
lugar durante algum tempo AT. Varios algoritmos foram estudados, mas a conclus3o ć que nenhum funciona me- 
Ihor sob lodas as circunstdncias (Lakowe e Ellis, 1991). 

Multiprocessadores NUMA com coerencia de cache 

Projetos de multiprocessadores como o da Figura 8.26 nao se prestam muito bem it ampliaęao. porque nao 
fazem cache. Ter de ir ate a memória remota loda vez que urna palavra de memória nao local for acessada e um 
grandę empecilho ao desempenho. Contudo, se for adicionado cache. entSo e preciso adicionar tanibem cocrSn- 
cia de cache. Um modo de proporcionar coerSncia de cache ć escutar o hanamento de sistema. F.m termos tec- 
nicos nao ć diffcil fazer isso, mas. se for ultrapassado um certo numero de CPUs. torna-se invirivcl. Para cons 
truir multiprocessadores realnienie grandes ć preciso unia abordagem fundanicntalmente difcrenlc 

Atualmcnle a abordagem mais popular para construir multiprocessadores CC-NUMA (Cache Coherent 
NUMA — NUMA com coerSncia de cache) dc grandę porte 6 o niultiprocessador haseado em diretório. A 
idćia ć manter um banco de dados que infornia onde esUi cada linha de cache e em que estado ela estd. Quando 
urna linha de cache ć referenciada. o banco de dados <5 pesquisado para descobrir onde ela estd e se estd limpa ou 
su ja (modificada). Urna vez quc ć preciso pesquisar esse banco de dados a cada instmęSo que referenciar memó¬ 
ria. ele tern de ser mantido em hardware exlremamentc rdpido de uso especial que pode responder eni urna fraęao 
de um ciclo de barramento. 

Para tornar um pouco mais concreta a idćia de um niultiprocessador baseado cm diretório. vamós eonside- 
rar o cxemplo simples (hipotćtico) de um sistema de 256 nós, cada nó consistindo em unia CPU e 16 MB dc 
RAM conectados i) CPU por um barramento local. A memória total ć 2 U byles, dividida em linhas de cache 
de 64 bytes cada. A memória ć alocada estaticamenle entre os nós, com 0-16M no nó 0. I6M-32M no nó I c 
assim por diantc. Os nós sao conectados por urna rede de interconex3o como mostra a Figura 8.27(a). A rede 
de interconexao poderia ser urna grade. um hipereubo ou outra topologia. Cada nó tambćm rontem as entradas 
de diretório para as 2 IR linhas de cache de 64 bytes abrangendo sua memória de 2 J1 bytes. Por empianto. vamos 
considerar que urna linha pode ser contida. no m4xinto, em urna cache. 

Para ver como o diretório funciona. vamos acompanhar urna instmęao LOAD da CPLI 20 i|ue referenda urna 
linha que estil cni cache. Em primeiro lugar. a CPU que estd emitindo a instruęao a apresenta ii sua MMU (unida- 
de de gcrenciamento de memória). que a trądu/, para um endereęo ftsico, pore.semplo, Ox24(K)OI()8. A MMU sub- 
divide esse endereęo nas trćs partes. mostradas na Figura 8.27(b). Etn decimal, essas tres patlcs sao nó 36. bloco 4 
e dcslocamento 8. A MMU vć que a palavra de memória referenciada ć do nó 36, e nao do nó 20. portanto envia 
unia mensagem de requisię3o pela rede de interconexSo ao nó nativo da linha .36, perguntando se sua linha 4 estd 
cm cache e. se estiver, onde estd. 
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Quundu a u'i|uisu l ao chega uo nó 36 pela rede de interconexao, ela e roteadu para o hardware de diretório. 

O hardware indcxa para sua tabela dc 2 1 * cniradas. uma para cuda unia de su as linhas dc cache e cx(rai u eiltra- 
du 4. l*elo Figura 8.27(c) veinos que a linhu nil o estd em cache, porlunlo o hardware busca a linhu 4 nu RAM 
local, a enviu dc volia uo nó 20 e atuali/a u enirada de diretório 4 para indicar que a linha agora estd em cache 
no nó 20. 

Agora vamos considerar uma segunda requisiędo, desta vez pergunlando sobre a linha 2 do nó 36.Felu Figura 
8.27(c) vemos que essa linha estd cm cache no nó 82. Nessc ponto o hurdwure poderia atualizar a entruda dc dire¬ 
tório 2 paru informuj' que u linha agora estd no nó 20 e entdo enviar uma mensugem uo nó 82 instruindo-o u pussur 
a linha para o nó 20 c invalidar sua cache. Notc que, mesmo um ‘multiproccssudor dc memória compartilhuda'. por 
assim di/er. tein uma grandę uti\ idadc oculla de troca de mensagens. 

A propósilo, vamos calcular quanta memória estd sendo tornada pelos diretórios. Cada nó tern 16 MB de RAM 
e 2‘ 8 clili adas de bits para monitorar atjucla RAM. Assim, a sobrecarga do diretório 6 de cerca de 9 X 2 >N bits 
diiididos por 16 MB, ou uproximadaiuentc l,769f, o quc, em geral, ć aceitdvol (emboru tenha de ser memória de 
altu lelocidade, o que aumenta o custo). Mcsnto com linhas de cache de 32 bytes a sobrecarga seria de apenas 4'Jf. 
Cdiii linhas de cache de 128 bytes estaria ahuixo de 1%. 

Uma limitnędo óhviu desse projeto 6 que uma linha só pode ser colocadu em cache em um tSnico nó. Para per- 
mitir cache de linhas em vdrios nós, precisarfamos dc ulgum modo de localizur lodas elas, por exemplo, para invali- 
da-lus ou utuulizd-lus em uma escritu. Ha vurius opędes possfveis para permitir cache em varios nós ao mesmo tempo. 

Uma possihilidade ć dar a cada entrada de diretório k campos para especificar outros nós, permitindo assim 
a cache dc cuda linha em ate k nós. Uma segunda possihilidade e substiluir o numeru do nó em nosso projeto 
simplcs por um mapa de hils, com um bil por nó. Nessa opęao nao hd nenhum Umilę a quantidadc de cópias 
quc pode haver. mas ha um suhslancial aumento na sobrecarga dc conlrole. Um diretório com 256 bits para cada 
linha de cache dc 64 bytes 1512 bits) implica uma sobrecarga dc mais de SOU-. Uma terceira possihilidade i 
manter um campo de 8 hils em cada entrada dc diretório e usa-lo como o cabeęalhn de uma lista encudeada que 
maiitćm todus as cópias da linha de cache. Hssu eslratćgiu requer arma/enamento extra em cada nó para pontci- 
ros da lista encadeadu e lamhem requer pcrcorrer uma lista encadeada para achar toilas as cópias quando isso 
for neccssório. Cuda possihilidade tein suas próprias vuntagcns e dcsvanlagens, e lodas as trfis t6m sido usudus 
cm sistemus rcais. 

Uma outra melhoria do projeto dc diretório 6 monitorar se a linha dc cache estó limpa (memória residente estó 
atuali/ada) ou suju (memória residente uHo esta uluali/ada). Se chegur uma requisii,io dc leitura para uma linhu dc 
cache limpa. o nó nativo pixle cumprir a requisięao dc memória sem ter de repassii-Ia para uma cache. Contudo, 
uma rcquisięAo dc leitura para uma linha de cache suja deve ser passada para o nó que eoniem a linhu de cache por- 
que somentc ele tern uma cópia valida Se for permiUda apenas uma cópia dc cache, como na Figura 8.27, nao hd 
nenhumu lantagem real em monitorai sua limpeza, porque qualquer nova reijuisięao exige que seja enviada uma 
mensugem A cópia existente para invalidd-la. 

Ciuro que monitorar se cada linha de cache esta limpa ou suja implica que, quando uma linha de cache ć modi- 
licada, o nó nativo tem de ser informado, mesmo se existir snmente uma cópia de cache. Se exislirem vdi ias cópias, 
modificar uma dclus requer que o resto seja invalidado, portanto e preciso algom protocolo para evitar condięóes de 
disputa. For exemplo, para modificar uma linha dc cachc compartilhuda, um dos portudores poderia ter de reipiisi- 
tar acesso cxclusivo unieś de moiiifica-la. Tul requisięao faria com que lodas as outras cópias fossem imalidadas 
antes da conccssao da permissao. Outras otimiza^ócs de desempenho para maipimas CC-NUMA sao discutidas cm 
Stenstrom cl al., IW. 
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O multiprocessador NUMA Sun Fire E25K 

Como exemplo ile um multiprocessador NUMA de memória compartilhada. vamos estudar a familia Sun Fire 
da Sun Microsystems. Embora essa familia contenha vdrios modclos. focalizaremos o E25K. ipic tern 72 chips de 
CPU UltraSPARC IV. Urna UltraSPARC IV ć. em essencia. um par de priKCSsadores UltraSPARC Ifl Cu que com- 
pnrtilham urna cache e memória. O F.I5K ć. basicamente. o mesmo sistema, cxccto que tern um uniprocessador cm 
vez de chips de CPU com processadores duais. Fxistem mcmbros mcnores tamhćm. mas. de hosso ponto dc visla. 
o intcrcssante ć como funcionam os que tern o maior numero de CPUs. 

O sistema E25K consiste em ate 18 conjunlos de placas, cada conjunto de placas composto por urna piani 
CPU-mcmória, urna płaca de E/S com qualro conectores PCI c urna płaca de cxpans9o que acopla a płaca CPU- 
memória d płaca de E/S c une o par ao piano central, quc suporta as placas c contćm a lógica de comutaędo. Cada 
płaca CPU-memória contćm ijuatro chips de CPU e quatro módulos de RAM de 8 GB. Por eonseqiiencia, cada płaca 
CPU-memória no E25K contćm oito CPUs e oito 32 GB dc RAM (quatro CPUs e quatro 32 GB dc RAM no EI5K). 
Assim. um E25K complelo contćm 144 CPUs. 576 GB de RAM e 72 conectores PCI. Ele ć ilustrado na Figura 8.28. 
O interessantc ć que o numero 18 foi escolhido por causa dc limitaęóes de empacolamenlo: um sistema com 18 eon- 
juntos dc placas era o maior quc podia passar inteiro por urna porta. Enquanto programadores só pensam em Os e 
Is, engenheiros tćm dc sc preocupar com questóes como sc o produto consegue passar pcla porta da casa do clien- 
tc c enlrar no prćdio. 

O piano central ć composto de um conjunto de trćs comutadores crossbar 18X18 para conectar os 18 con¬ 
junto de placas. Um comutador crossbar ć para as linhas dc endereęo, um ć para respostas e urn ć para transferen- 
cia de dados. Alćm das 18 placas de cxpansao, o piano central lambćm tern um conjunto de placas dc controle de 
sistema ligado a ele. Esse conjunto de placas tern urna unica CPU. mas tambćm tern intcrfaces com CD-ROM. fila, 
linhas scriais c outros dispositivos perifericos necessarios para inicializar. manter e controlar o sistema. 

O coraęao dc qualqucr multiprocessador e o suhsistema de memória. Como conectar 144 CPUs a memória dis- 
tribufda? Os tnodos diretos — um grandę barramento de escuta compartilhado ou um comutador crossbar 144 X 72 
— n3o funcionam bcm. O primeiro falha porquc o barramento ć um gargalu c o ultimo falha porque ć muito diffcil 
e muito caro constniir o comutador. Por isso. grandes multiprocessadores como o E25K sdo obrigados a usar um 
subsistema de memória mais complexo. 

No nivcl do conjunto dc placas ć usada lógica de escuta, dc modo que todas as CPUs l<xais podcm verificar 
todas as requisiv'óes de memória que v6m do conjunto dc placas para refcrćncias a blocos que estao cm suas caches 
no momento em quest3o. Assim. quando urna CPU nccessita dc uma palavra da memória, em primeiro lugar cla 
coiwcrtc o endereęo virtual para um endereęo ffsico e vcririca sua priipria cache. Endereęos ITsicos tem 43 bits. mas 
reslrięóes de cmpacotamento limitam a memória a 576 GB. 

Se o bloco dc cache quc cla nccessita estiver em sua pnipria cache. a palavra e devolvida. Caso contrdrio, a 
lógica de escuta verifica se hd uma cópia daquela palavra disponfvel em algurn outro lugar do conjunto de placas. 
Se houver. a requisię8o ć cumprida. Se ndo houver. a requisię3o ć passada adianle por tneio do comutador crossbar 
18 X 18 de endereęo como descreveremos mais adianle. A lógica dc escuta só pode fazer uma escuta por ciclo de 
relógio. O relógio do sistema funciona a 150 MHz.. portanto ć poss(vel realizar 150 niilhóes dc escutas por segun- 
do por conjunto de placas ou 2.7 bilhóes dc cscutas por segundo no dmbito do sistema. 

Embora cm termos lógicos a lógica de escuta seja um barramento, como relratado na Figura 8.28, em termos 
ITsicos cla ć uma drvore dc dispositivos, cujos comandos sao repassados para cima e para baix<> da drvore. Quando 
uma CPU ou uma płaca PCI produz um endereęo, este vai atć um repetidor de cndereęos por mero de uma conexao 
ponto-a-ponto, como mostra a Figura 8.29. Os dois repetidores de endcreęos convcrgem para a płaca de expans9o, 
onile os cndereęos siło enviados dc volta drvore abaixo pnra cada dispositivo para verificar compatihilidatles. Esse 
arranjo ć usailo para evitar ter um barramento quc envolva trćs placas. 
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Trunsferdncias de dados usara uma interconexao de qua(ro nfveis como mostra a Figura 8.29. Esse projeto foi 
escolhidn por causa de seu altu desempenho. No nfvd 0, pares de chips de CPU e memórius sao conectados por urn 
pcqueuo comutador crossbar quc tambem tern uma concxao com o nfvel 1. Os dois grapos de puics CPU-memória 
siło conectados por unt segundo comutador crossbar no nivel I. Os comuladores de barras cnt/.udas sao ASICs fabri- 
cados sob especiticaędo. Paru todos eles. todas as entradas estao disponfvcis nas linhns. bcm como nas colunas. 
emitora nem todas as combi naęócs sejum usadas ou nem mesmo fayam sentidu. Toda u lógicu de comutaęSo nas 
placas 6 constntfda a parlir do crossbar 3 X 3. 

Cada conjunto dc placas consiste em tres placas: a płaca CPU-inemória, a płaca de E/S e u płaca de expansao, 
quc conecla as outras duas. A inierconexdo dc ntvcl 2 ć um outro comutador crossbur 3X3 (na płaca de expansao) 
que uuc u memóriu prnpriumentc dita iis portas de E/S (que sao dc mapeamento de memória em todas as 
IJItraSPARCs). Todas as translerćneias de dados de ou para o conjunto de placas, seja para memóriu ou para uma 
porta ile Ii/S, passum pelo comutador de nfvel 2. Por Em, dados que tern de ser trunsferidns dc ou paru uma płaca 
rentotu passum por um comutador crossbar 18 X 18 de dados no nfvel 3. Trunsferencias de daiios sao 1'eitas 32 bytes 
por vez, portanlo lcva dois ciclos dc relógio para transferir 64 bytes, que e a unidadc de Iransferencia usual. 

Agora quc ja vimos como os componenlcs sao organiz.ados, vumos voltar nossa atenyao ao modo como u 
memória coinparttlhada opera. No n(vel mais baixo, os 576 GB de memória sao divididos em 2 M blocos de 64 bytes 
cuda. Esscs blocos sio as unidades atómicas do sisletna de memória. Cada hloco tern uma placa-ntae onde ele resi- 
ile quando nao esta em uso em algum outro lugar. A maioria dos blocos Eca em suu płuca--mac grandę parte do 
tempo. Contudo, quundo uma CPU precisa de um bloco de memória, seja de sua própria płaca ou de uma das 17 
placas rcmotas, em primeiro lugar cła rcquisita uma cópia para sua própria cache c entio acessa a cópia na caclte. 
Embora cuda chip de CPU no E25K contenha duas CPUs, clas compurtilham urna unica cachc Esica e, por isso, 
compartilbam todos os blocos nelu contidos. 

Cudu bloco dc memória e linhu dc cachc de cada chip de CPU pode estur em um de tres estudos: 

1. Accsso exclusivo (para escrita). 

2 . Accsso compartilhado (para leilura). 

3. Invdlidu i isto e, vazio). 


Quundo uma CPU prccisa ler ou escrever uma palavra de memória, em primeiro lugar ela verifica sua própria 
cuchę. Sc nao encontrar a palarni ali, ela cmitc uma requisiyao local para o endereęo Esico, que e transmitidu 
somentc em seu próprio conjunto de placas. Se uma cache do conjunto de placas tiver a linhu neccssAria, a lógica 
de escutu dctccta a presenya c cumpre a rcquisięao. Se a linha estiver em modo exclusivo, ela e trunsferidu ao requi- 
silanie e a cópia originu! e marcadu como invalidu. Se estiver em modo compartilhado, a cache nao responde, visto 
que a memória senipre responde quando uma linha dc cache esliver limpa. 

Sc u lógica dc escuta nao puder encontrar a linha de cache ou se a linha estiver presente e compartilhado, ela 
cnviu uma rcHjuisiyilo pelo piano central i placa-mie perguntando onde esta o bloco de memória. O estailo de cada 
bloco de memória ć arma/enado nos bits ECC do bloco, portanto a płaca mac pode detenninar imediutumenle seu 
estado. Se o bloco nao estiver compartilhado ou estivcr compartilhado com uma ou mais plucas remotas, a memória 
residente estard aluuli/uda e u requisięao pode ser utendida a partir da memóriu da plucu-mae. Nesse caso, uma cópia 
da linha de cache c Irunsmitida jtclo comutador crossbar de dados em dois ciclos de relógio e aeuburu chegando a 
CPU requisituute. 

Sc u requisiędo era para leilura, e lei ta uma entrada no diretório na placu-inde anolando que um novo clicnte 
csld compurtilhando a linha de cache c u transayao estd conclutda. Contudo. se a requistyao for para escrita, uma 
mensagem dc iuvalidaydo tem dc ser cnviada a todas as outras placas (se houver ulgumu) que contiverem uma cópia 
ilelu. Desse modo, a placu quc csld lazendo a requisiędo de escrita acttba fteando com a unica cópia. 
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Agora considere o caso em que o bloco requisitado estii em estado exclusivo localizado cm uma płaca diferen- 
tc. Quando a placa-mae oblćm a requisięfio, ela consulta a localizaędo da płaca reinota no diretório e envia ao requi- 
sitante uma tnensagcm informando onde estd a linłia dc caclie. Agora o requisiianle envia a requisięao para o conjun- 
to de placas corrclo. Quando a requisiędo chega, a płaca devolve a linha de cache. Se fosse uma requisię3o de leitura, 
a linha seria marcada como compartilhada e uma cópia seria enviada de volta 3 placa-mae. Se fosse uma requisię3t> 
de escrita, o respondedor invalidaria sua cópia de modo que o novo requisitante tivesse uma cópia cxclusiva. 

Uma vez quc cada płaca lem 2 20 błocos de memória. na piór das hipóleses o diretório predsaria de 2” enira- 
das para monitorar todos eles. Visto que o diretório 6 muito menor do que 2 20 , poderia acontecer de nao haver espa- 
ęo no diretório (que ć pesqoisado ass(Kiativamente) para algumas entradas. Nesse caso. o diretório de origem tern 
de locałizar o bloco transmitindo uma requisięao de bloco de origem a todas as outras 17 placas. O comutador cross- 
bar de resposta descmpcnha urn papel na coerencia do diretório e protocolo de atualizaędo dirigindo grandę parte 
do trafego no sentido inverso de volta ao remetente. A subdivis3o do protocolo de-tnifego em ilois harramenlos (de 
endereęo e de resposta) e um terceiro barrainento de dados aumcnta a vazao do sistcma. 

Por distribuir a carga entre multiplos disposilivos em placas diferentes o Sun Fire E25K pode atingir desem- 
penho niuilo alto. Alćm dos 2.7 bilboes de esculas/segundo que jd mencionamos. o piano central pode tratar atć nove 
transfer6ncias simultilneas. com nove placas enviando e novc placas recebendo. Uma vcz que o comutador crossbar 
para dados tern 32 bytcs de largura. 288 bytes podem ser movidos atravćs do piano central a cada cicln de relógio. 
A uma taxa de relógio de 150 MHz. isso dii uma largura de banda agrcgada de pico de 40 GB/s quando todos os 
acessos forem remotos. Se o software puder posieionar pliginas de modo a assegurar que a maioria dos accssos seja 
local, entao a largura de banda do sistema pode ser consideravelmente maior do que 40 GB/s. 

Se o leitor quiser mais iriformaęócs tćcnicas sobrc o Sun Fire, veja Charlesworth, 2(K)2; c Charlcswortli. 2001. 

8.3.5 Multiprocessadores COMA 

Uma desvantagem das indquinas NUMA e CC-NUMA e que referencias 3 memória reinota sao muito mais 
lentas do que referencias a memória local. Em CC-NUMA. essa diferenęa de desempenbo esta oculta. ate certo 
ponto, pela atividade de cache. N3o obstante, se a quantidade de dados remotos necessarios for muito maior do que 
a capacidade da cache, ausencias da cache ocorrerao constantemente e o desempenho serii mcdfocre. 

Assim, terno* uma situaęio em que mdquinas UMA tern escelente desempenho mas seu tamanho ć limitado e 
elas sao muito caras. Miiquinas NC-NUMA podem ser ampliadas para tamanhos um pouco maiores, mas requercm 
posicionamento de pdginas manuał ou seini-automdtico, muitas vezes com resultados mistos. O problema ć que ć 
diffcil prever quais pdginas ser3o necessdrias cm quc lugares e, dc qualqucr modo. pdginas costumam ser uma uni- 
dade muito grandę para mover de um lado para outro. Maquinas CC-NUMA. como o Sun Fire E25K. podem expe- 
rimentar niau desempenho se muitas CPUs prccisarem de grandes quantidadcs de dados remotos. I.evando tudo isso 
em conta, cada um desses projetos tern sćrias limitaęOes. 

Um lipo alternativo de multiprocessador lenta coutofnar tmios esses problemas usando a memória principal de 
cada CPU como uma cache. Nesse projeto, denominado COMA (acesso 3 memória snmente de cache), as pdgi 
nas nao lfim mdquinas ile residencia fixas. como acontece em miiquinas NUMA e CC-NUMA. Na \erdade. as pdgi- 
nas nao tfim nenlrum signilicado. 

Em vez disso, o espaęo de endereęo Esico 6 subdividido em linhas de cache. que migranr pelo sistema sob 
demanda. Blocos nao tfim mdquinas de residfincia. Como nómades em alguns pafses do Terceiro Mundo, seu lar ć 
onde eles estao exatamente no momento em questao. Uma memória que apenas atrai linhas conforme necessiirio e 
denominada memória de atraęao. Usar a RAM principal com uma grandę cache alimenta muito a taxa de presen- 
ęa na cache c. por conseguinte, o desempenho. 

Infeliz.mente. como sempre, nao existe almoęo grźtis. Sistcmas COMA introduzem dois novos problemas: 

1. Como as linhas de cache sSo localizadas? 

2 . Quando uma linha 6 expurgada da memória. o quc acontece se ela for a ultima cópia ! 

O printeiro problema estii rclacionado ao falo de quc. após a MMU ter traduzido um endereęo virtunl para um 
endereęo Esico, se a linha n9o estiver na cache vcrdadeira de hardware. nSo existe uma maneirn fścil de dizer se ela 
estii na memória principal. O hardware de paginaęao nao ajuda nada nesse caso. porque cada piSgimi 6 composla de 
muitas linhas de cache individuais que vagueiam independentemente. Alćm do mais. aindn que se saiba que uma 
linha nao estó na memória principal, onde ela estii enUSo? N3o podemos pergunlar a móquina dc residfincia porque 
essa móquina nao existe. 

Foram propostas algumas soluętics para o problema da localizaęao. Para ver se uma linha dc cache estii na 
memória principal. poderia ser adicionado novo hardware para monitorar o rótulo dc cada linha em cache. F.ntilo a 
MMU poderia eomparar o rótulo da linha neccssória com os rótulos de todas as linhas de cache na memória cm 
busca de uma presenęa na cache. Essa soluęao precisa de hardware adicional. 

Uma soluę3o um pouco diferente ć mapear paginas inteiras mas n3o exigir que todas as linhas de cache estc- 
jain presentes. Nessa soluęao, o hardware precisaria de um mapa de bits por piigina'que desse um unico bil por linha 
de cache indicando a presenęa ou ausencia da linha. Nesse projeto. denominado COMA simples. se a linha de 
cache estiver presente. ela deve estar na posięao correta em sua piigina. tnas, se nao estiver presente, qualquer len- 
tativa de usd-la causa uma cxceęao para permitir que o software \& acha-la e traze-la para dentro. 



Isso resulta cni procurar linhas que sao realnienie remutas. Unia soluęao 6 dar a cuda pdgina unia iiiaijuina de 
rcsidenciu cni termos dii lugar ondc usta a enlradu de diretório, mus nao do lugar oiulc estao os dados. Entiio unia 
niensageiii pode ser enviada a indquina de residfineia para. no mfnimo, localizar u linha dc caelic. Outros esqucmas 
envolvem orgunizur inemória como unia arvore e procurar de liaixo para eima ale enconlrar a linlia. 

O segundo probleina na lista que ucabamos de citar esld relaeionado com a nao-remoęau da ultima cópia. 
Como em C'C NUMA, unia linha de caelic pode cslar em varios nós ao mcsino tem|xi. Quando ocorre unia ausen- 
cia da cuchę, urna linha deve ser buscuda, o que usualmente signilica que urna outra linha deve ser descariada. O 
quc uconteCC se, poi acaso. a linha escolhida for a ultima cópia? Nesse cuso, ela nao pode ser descariada. 

Unia soluęau e vollar ao diretório c veriticur se ha outras cópias. Se horner, a linha pode ser descariada com 
seguran^a. C aso conirdrio, ela leni de ser migi ada para algum outro lugar. Utną outra soluędo ć identdicar urna cópia 
de cada linha de cache como a cópia incsUa e nuncu joga-la foru. Essa soluęao evilu ter de verificar o diretório. 
Levando tudo em coiila, COMA prometc melhor desempenho do que CC-NUMA, mas poucas indquinas COM A 
lorum consiruidas, portank) e preciso mais csperiencia. As duas priineiras iuaquinus COMA conslrufdas forum a 
KSK-1 (Burkhurdt ci al.,l992l c a Dula Dilfusion Machinę (Ilagerslen el al., 1992). Unia maquina mais recenle e 
a SDAAKC (Eschmunn el al., 2002). 

8.4 Multicomputadores de troca de mensagens 

Como vinios na figura 8.18, os dois lipos dc processiuiores paralelos MIMD sao mtiUiprocessudores e mulii- 
computadores. Na seęao unlerior estudamos os inulliprocessadores. Vimos que multiprocessudores aparecem para 
o sistema operacional como se tivesscm memória compartilhada que pode ser acessuda u sarnio instruęóes comuns 
LOAD e STORĘ. Essa memória compartilhada pode ser implementada de vńrias maneiras, como vimos, incluindo 
barramenlos de escula, cro.ssbar de dados, redes de comulaęiio multiestagios e varios estpiernas buseados em dire- 
lório. Nao obstanie, programas escritos para um multiprocessador podem acessar quulquer locali/aęao na memória 
sem nada saher sobie a topologia interna ou o csquema de implementaędo. Essa ilusfio e que toma os multiproces- 
sudores tao atraenies e e a ruzao por que os programadores gostam desse modelo de progrumuęiio. 

Por outro lado, os mulliprocessudores tambćm leni suas limitaęóes, e ć por isso que os multicomputadores tum- 
bem sao importantes. Antes de inais nada, multiprocessudores nao podem ser anipliados paru grandes tamanhos. 
Vimos a enorme qu.mlidade dc hardware que a Sun teve de usar para uumentar o mimem de CPUs do E25K para 
72. Por comparaęao. logo udiante estudaremos um inullicomputador que tern 65.536 CPUs. Aindu faltant muitos 
unos para que ulgueni construu um multiprocessador cotnerciul com 65.536 nós e, entfio, ja estarSo em uso nuilli- 
coiupuiadores com milhócs de nós. 

Ademais, u conienęao pela inemória em um inul(iprtx'cssador pode afetar scriamente o desempenho. Se cem 
CPUs cstivciem teniando ler e cscrever as mesinas vuriavcis constanteincnte, a cnntenęao pelas \ dii as inemórias, 
barramenlos e direiórios pode resullar em um enorme haque no desempenho. 

Como conseqiicnciu desses c de outros fatores, ha um grandę interesse em construir e usur computadores para 
Iclos nos t|uuis cada ('PU (cm suu própria memória privada. que nao pode ser acessada diretamente por qualqucr 
outra CPU. f.Ies sao os multicomputadores. Programas em CPUs de multicomputadores interagem usando primili- 
vas como send e recewe para trocar mensagens cxplicilamcnte porque urna nao pode chegar atd a memória da outra 
com iuslruęóes LOAD e STORĘ. Essa diferenęu muda completamente o modelo de programaęiio. 

Cada nó em um multicomputador consiste em uma ou algumas CPUs, alguma RAM (certamente compartilha¬ 
da só eutre as CPUs que estao naquele nó), um disco e/ou outros disposi(ivos de E/S e um proccssador tle comuni- 
caęuo. Os proccssadorcs de comunieaęSo esido conectados por uma rede de intercomunicaęao dc alta vclocidade dos 
tipos que discutimos nu Seę&o 8.1.2. Sao usadus nuiitas topologias, estpiemas de comutaędo e algoritmos de rolca- 
menio diferentes. O que todos os multicomputadores tóni em comum 6 que, quando um programu de aplicaęHo exe- 
cula a primitiva send o proccssador de comunicaęao ć notilicado e transniite um bloco de dados de usuario a nuiqui- 
ua de deslino. possiychncnte após pedir e ohter permissao. Um multicomputador genćrico e mostrado na figura 8.30. 


Fiuura 8.3U 

MulUcompulador 
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8.4.1 Redes de interconexao 

N« Figura 8.30 vemos que multicomputadores s3o mantidos juntos por redes de inlereoiiexflo. Agora chcgou 
u hora de examinar mais de perto essas redes de interconexao. O interessante 6 que rnulliprocessadores e multicom- 
putadorcs s3o surpreendenlemcnlc similares nesse aspecto, porque rnulliprocessadores muitas vez.es tfim vArios 
módulos ile memória que tambćni devem sc interconectar uns com os outros e coni as CPt Js. Assim. o materiał nesta 
seytlo muitas vezes se aplica a ambos os tipos de sistemas. 

A raziło fundamental por que redes de interconexao de rnulliprocessadores e multicomputadores siło semelhan- 
tes e que. no fundo, ambos usam troca de mensagens. Ató mesino em urna tiukpiina com um:i unica CPU. ipiando 
o processador quer ler ou escrever urna palavra, sua aę3o tfpica 6 ativar certas linhas no barramenlo e esperar por 
urna resposta. Fundamental menie, essa aęao ć como trocar mensagens: o iniciador envia urna requisięao e espera 
urna resposta. lim grandes multiprocessadores, a comunicaęao entre CPUs c memória remota quase sempre consis- 
te em a CPU enviar 3 memória urna mensagem esplfcila, denominada pacote. requisitando alguns dados, e a memó¬ 
ria que devolve uin pacote de resposta. 

Topologia 

A topologia de urna rede de interconexao descreve como os enlaces e os computadores siło organizados. por 
cxemplo, como urn anel ou urna gradc. Projetos topológicos podem ser modelados como grafos. com os enlaces 
representados por arcos c os comutadores por nós, como mostra a Figura 8.31. Cada nó em urna rede de intercone- 
x3o (ou em seu grafo) tein algum niłmero de enlaces conectados a cle. Matemdticos denominam o mimero dc cnla- 
ces o gran do nó; engenheiros o denominam leque. Em gerul, quando tttaior o leque. mais opęóes de roleamenlo 
ha e maior <5 a toleriincia ił fal ha, isto 6, a capacidade de continuar funcionando se um enlace falhar, fazendo urn 
roleamenlo que contorna esse enlace. Se cada nó tiver k arcos e a fiaęiio for executada corretamente. e possfvel pro- 
jelar a rede de modo que ela se mantenha totalmente conectada, mesmo que k - I enlaces falhem. 

Urna outra propriedade de unia rede dc interconexao (ou de seu grafo) ć o diainetro. Se medirmos a distilncia 
entre dois nós pelo nu mero de arcos que tSm de ser pcrcorridos para chegar de um nó ao outro, o didmetro de um 
grafo ć a dislancia entre os dois nós que estao mais afastados, isto ć, que l6m a maior distSncia entre eles. O diSme- 
tro de urna rede de interconexao esta relacionado com o piór atraso que pode ocorrer quando se enviam pacotes de 
CPU para CPU ou de CPU para memória porque cada salto por um enlace toma urna quantidade Unita de tempo. 
Quanto menor for o diainetro, melhor serii o desempenho no piór caso. Tambćm importante e a distAncia media 
entre dois nós, urna vez que ela estii relacionada com o tempo niedio de transito do pacote. 




Hniira 8.31 

Vśrias topologias. 

Os pontos negros 
representam comutadores. 
As CPUs e memórias nao 
sao moslradas. (a) Estrela. 
|b| Malha de interconexao 
completa. (c| Arvore. 

|d| Anel. |e) Grade. 

|f| Tbro dupin |g) Cubo. 

(li) Hipercubo 4D. 





Anula uniu oulra propriedudc importunie de mnu redc dc inierconcxao e suu capacidade ile tranamm&o, 
isto e. ijuanlos dados cla pinie mover par segundo. Unia medida util dessa capucidade e a largura de bunda de 
bissei^ati Para calculut essu quun(idude, eni primeiro lugar temos dc dividir (conceilualmcntc) a redc cm duas 
parłeś iguuis (cm termos do numeru de nós) porem nao conecladus. retnovcndo urn conjunto de urcos de scu 
grufo. liman caleulamos a largura de bandu lotul dos arcos que forum reinovidos. Pode haver muitos tipos dife 
reuies de partiom dc redc cm duas partes iguais. A largura de bunda de hisscęao e u minima de (odas as pussf- 
veis purti^ócs. \ significanciu desse numero ć que, se u largura de banda de bissev'tk> for, por exemplo, 800 
biu/s, enlao, se Iiouyci muila comumeaęao enlrc as duas nietades, a vuzao lotal pode ser limilada a apenus 800 
bils/s, no piór easo. Muitos projetistas acham que a largura de bunda de bisseęao e u mótrica muis importftntc 
de urna redc de interconex3o. Muitus redes de interconexao san projetadas cotn o objelivo de maximi/ar a lar- 
guru de bunda de bisseę&n. 

Redes de intcrconex3o pudem ser earacteri/adas por sua dimensionulidude. Para nossas finalidadcs, a dimen 
sionalidade e determinują pelo numeru de op^-dcs que ha para cbegar da fonie ao destino. Se nunca houver ncnhu- 
mu op^ao, isto e. se houver somente um caminho entre a fonie e o destino, a rede tein dimensao zero. Se houver 
urna ditnensao na qua! possa ser leita urna opęao, por exemplo, ir para o oeste ou ir para o leste a rede e unidimen- 
sional. Se bnuvei dois eixos de modo que um paeote possa ir para o leste ou para o oeste ou, como aliernuiivu, possa 
ir para o norte ou para o sul, a redc ć bidimcnsional e assim por dianie. 

Vaiias topologias sao mostradas na Figura 8.31. Sao moslrados apenus os enlaces (linhus) e os comuludo- 
res (pontost. As memórias e CPUs (nao mostradas) normalnienie estarium ligadas aos comutadores por inlerfa- 
ees. Nu Figura 8.3l(u), temos unia conftguraętlo de dimensao /ero em eslrda na qual as CPUs e memórias 
estariam ligudus aos nós exlernos e o nó central só furia a comutaędo. limbom seja um projeto simples, no caso 
de um grandę sisiema e provdvel que o comutudor central seria um imponante gargalo. Ademais, da pcrspecti- 
vu du tolerancja ii lalhu, esse projeto ć ruim, utną vez que urna ilnica falha no comutndor central destrói com- 
plelamente o sisiema. 

Na Figura 8.31 (b). temos um outro projeto de dimensao zero quc estń na outru exlremidude do espcctro. urna 
mulitu dc iiUcrcuncxao tutal. Nesse caso, cada nó lem unia conexdo direta para cuda outro nó. Esse projeto maxi- 
mi/a a largura ile bunda de bisseęao, miniiniza o diameiro c e exlremamcnte tolerante ii falha — pode perder quais- 
quer scis enlaces e a rede uinda conlitiuar totalmente conectada. lnfelizmente, o mimero de enlaces requerido para 
k nós 6k(k I)/ 2. o que tapidaniente sai do controle para k grandę. 

Unia outru topologia e u arvore, ilustrada nu Figura 8.31 (c). Um problema com esse projeto 6 que a largura 
de banda de bisseędo ć igual ii capacidade do ettlace. Urna vcz que normalmente haveró minio trafego perto do topo 
da ariore. os poucos nós do topo sc tornarao gurgulos. Um moiio de contomar esse problemu ć aumentar a largura 
de bisseęao dando muis largura de banda aos enlaces quc estao muis cm cima. Por exemplo, os enlaces dos nivcis 
mais haixos podcriam ter umu capacidade b, o próxinu> ntvel podcria lei urna capacidade 2 b e os enlaces do nlvel 
superior podcriam ter Al> ciulu um. Esse projeto i denominado 4rvort* gni da c foi usado cm multicomputadores 
comcrciuis, lais cumo os CM-5 da Thinking Machines, que nilo cxistem mais. 

O and du I igura 8.3lid) 6 utną topologia unidintensional pelu nossa definięao, porque cuda paeote etwiudo 
tent urna op^-ao de ir para u direita ou para a esquerda. A grudę ou mulha da Figura 8.3 lic) e um projeto bidimen- 
sional quc lem sido usado cm muitos sisteinas comcrciuis. E de altu rcgularidade, fdcil dc ampliar |iara tamunbos 
maiores e lem um diainetro que alimenta apenas com a rai/ quadradu do numeni de nós. Unia varianlc da grade ć 
o toru duplo da Figura 8.31(f), que ć urna grade cujas extremidades s3o conectadus. Aldm de ser mais tolerante it 
falha do que a grade, seu diainetro tambem e me nor, porque as arestas opnstas agora pudem se comunicar em 
somente dois suhos. 

Unia outru topologia popular e o toru tridimensional. Nesse caso, a topologia consisle em unia estruturu 3D 
com nós nos pornos (/, j, k) onde todas as coordcnudus sao numeros inteiros na faixa de (I, I, 1) a (/, m, n). Cada 
nó lem seis vizinhos, dois uo longo de caiia cixo. Os nós nas extremidudcs tern enlaces que fazem a volta comple- 
ta utć a cAtremidude opustu, cxatamentc como os toros 2D. 

O ciiho da Figura 8.3 Ug) e urna topologia tridimensional regular. Ilustranms um cubo 2x2x2, mus no 
caso gerul cle podcria ser um cubo k X k x k. Na Figura 8.31 (h) temos um cubo quadridimensional construfdo 
com dois cubos ttidimensionais com os nós correspondenles conecladus. Poderfamos fa/er um cubo pentudimen- 
siunal clunundo a estruturu da Figura 8.3 l(h) e conectundo os nós correspondenles para formar um bloco de qua- 
tro cubos. Para u a seis diinensóes, poderfamos replicar o bloco de qualro cubos e intcrconectar os nós corres- 
pondcnlcs e assim por dianie. Um cubo N-dimensional lot mado dessa ntaneira e denominado hipereubo. Muitos 
compuludores puralelos usam essa topologia porque o diimetro eresce linearmentc cum a diniensionalidade. lim 
outras palavras, o diSinctro ć o logaritmo ile base 2 do numero de nós, portanto, porexemplo, um hipereubo deca- 
dimensional tein 1.024 nós, mas um diameiro de apenus 10, o que Ihe conlere cxcelentes propriedades de utraso. 
Nule que, por eomparaęiSo, 1.024 nós organizados como urna grade 32 X 32 tern um iliametro de 62, mais do que 
seis vezes piór do que o hipereubo. O preęo pago pelo diameiro menor i que o leque e, por isso, o numero de 
enlaces (e o custo) e muito maior para o hipereubo. Ainila assim, o hipereubo e umu escolha cornunt p.tra sisle- 
nias de altu desempenho. 

liii ,varios fomialos e tumaniłoś de multicomputadores, portanto ć diftcil dar umu laxonomia ciura paru eles. 
Nao obstanie, ha dois ‘estilos’ que se destucum: os MPPs e os elusters. Estuduremos cada um deles por vcz. 


Capitulo 8 Arąulteturas de Compuiadores Paralelos 



Organizaęao Estruturada de Computadores 


8.4.2 MPPs — processadores macięamente paralelos 

A primeira calcgoria consiste nos MPPs (Massively Purallcl Processors — processadores macięamcnte 
paralelos). que sao imensos supercompuladorcs de muilos milltóes de dólares. Eles sdo usados cm ciencias, em 
engenharia e na indiislrin para cłilcidns inuilo grandes. para tratar nunieros niuilo grandes de transaęóes por segun 
do ou para dala warchousing (nnnazenamento c gcreneiamento de iinensos hancos de dados) De infeio, os MPPs 
eram priraariaincnlc usados como supercompuladorcs cientfficos, mas. agora, a maioria delcs ć usada cm amhien- 
tcs comereiais. Em certo senlido, essas mdquinas siło as succssoras dos podcrosos mainframes da dćeada de 1960, 
embora a concxao scja ternie, como sc urn palcontólogo dcclarassc quc um bando de pardais s8o os dcscemlentes 
do tiranossauro rcx). Em grandę proporęio. os MPPs desalojaram maquinas SIMD. supercompuladorcs vetoriais e 
processadores matriciais do topo da cadeia alimcntar. 

A maioria dessas mdquinas usa CPUs padronizadas como seus pr(K - essadorcs. Opęóes populares sao o Pentium 
da Iniel. a UltraSPARC da Sun c o PowerPC da IBM. O que destaca os MPPs ć a utilizaęiło que fazem dc urna retlc 
dc interconex9n proprictdria de deseitipenho muilo alto. projelada para mover mensagens com haixa latencia c a alla 
largura de banda. Ksscs dois aspcctos siło importantcs porquc a vasla maioria de lodas as mensagens ć dc pequeno 
lamanho (bem abaixo de 250 byles). mas grandę parte do trdfcgo total ć causada por grandes mensagens (mais de 
8 KB). Os MPPs lambćm vćm com extensivos softwarcs e bibliotecas proprietiłrias. 

Um outro ponto que caracteriza os MPPs € sua enormc capacidade de E/S. Problemas grandes o suficiente para 
justificar a utilizaęiło de MPPs invaiiavclmente t8m quantidades macięas de dados a processar. muitas vezes da 
ordem dc terabytes. P.sscs dados dcvem ser distribuldos entre muitos discos e precisam ser movidos pela maquina 
a grandę vclocidade. 

Por fim, urna outra questdo cspeclfica dos MPPs 6 sua atcnęSo com a toierilncia ii falha. Com milhares de 
CPUs, varias falhas por semana sao inevit!łveis. Abortar urna cxecuęao de 18 horas porque urna CPU falhou e ina- 
ceitiłvel, em es)iecial quando se espera ter urna falha dessas loda semana. Assini, grandes MPPs sempre t8m hard¬ 
ware c software especiais para monitorar o sistema, detectar falhas e recuperar-se delas sem sobressaltos. 

Sc bem que seria interessantc estudar os princfpios gerais do projeto do MPP agora, na verdade nao ha mui¬ 
tos princlpios. No firn das contas, um MPP e unia coleęao de nós de computaęAo mais ou menos padronizados, 
conectados por urna interconexiło muilo rdpida dos tipos que jd estudamos. Portanto. em vez disso, vamos estudar 
agora dois excmplos de MPPs: BiueGenc/L c Red Storni. 

BlueGene 


Como um primeiro excmplo de um processador macięamente paralelo. examinaremos agora o sistema 
BlueGene da IBM. A IBM concebeu esse projeto em 1999 como um supercomputador macięamente paralelo para 
resolver problemas com grandes quantidadcs dc cdlculos em areas das cićncias da vida, entre outras. Por cxcmplo. 
biólogos acreditam que a estrutura tridinicnsional de urna protetna delermina sua funcionalidmle, porem, calcular a 
cslrutura 3D dc unia pcqucua proteina a partir das Icis da ffsica levou anos nos supcrcomputadores daquela ćpoca. 

O miuiero de protelnas encontradas nos seres hunianos ć dc mais de mcio milhao e muitas delas siło exlrema 
mente grandes; sabc-sc quc scu desdobramento errado e rcsponsdvel por certas docnęas como. por exemplo, a fibro 
se cfstica. fi claro que determinar a estrutura tridinicnsional dc todas as protelnas humanus esigiria aumentar em 
muitas ordens de grandeza a capacidade mundial de computaęAo c modclur o desdobramento dc protelnas ć apenas 
um dos problemas para cujo tratamento o BlueGene foi projetado. Desafios de igual complesidade em diniłmica 
molecular, modclagcm do clima, astronomia c atć mesmo modelagem Gnanceira tambćm rcqnerem melhorias em 
superconiputaęAo de muitas ordens de grandeza. 

A IBM achou que liuvia mercado suGciente para a superconiputaęAo macięa c imestiu 100 milhóes de dólares 
no projeto e construędo do BlueGene. Em novembro ile 2001. o l.ivermore National Lahoratory, coinandado pelo 
Departamentu de Energia dos Estados Unidos. enlrou como parceiro e primeim dietitc para a primeira versiło da 
familia BlueGene. denominada BlueGene/L. 

A meta do projeto BlueGene udo era apenas fabricar o MPP mais rdpido do mundo, mas lambćm produzir o 
mais eficiente em termos de teraflops/dólar, teraflops/watt c teraflops/m'. Por essa raziło, a IBM rejeitou a Glosofia 
que fundamentava os MPPs anteriores. que era ulilizar os componentes mais rdpidos que o dinheiro pudesse com- 
prar. Em vez disso, tomou a decisao de produzir um componentc com um sistema em um chip que cxecutaria a urna 
vclocidade modesta e com baixo consumo de energia, de modo a produzir a maior itidquitia poss!vel cqm aha den- 
sidade de empacotatnenlo. C) primeim chip foi lanęado em junho de 2003. 

A primeira quarta parte do sistema BlueGene/l .. com 16.384 nós de computaęiło. cstava eompletaniente ope- 
racional em novembro de 2(XW, quando foi confinnado como o mais veloz computador da Terra a 71 tera 
flops/segundo Euncionando com meros 0,4 megawatt. lambćm venceu a corrida da eficićncia cm sua dasse. d 177.5 
mcgallops/watt. A entrega do restante do sistema, perfaz.endo o total de 65.536 nós de eompulaęao estava progra- 
mada pum o terceim trimestre dc 2(K)5. 

O coraęao do sistema BlueGcne/L e o chip espcciul de nó ilustrado na Figura 8.32. l-.le consiste em dois 
niieleos dc PowerPC 440 executando a 700 MHz. O PowerPC 440 ć um processador supcrcscnlar tle emisstlo dual 
com pipeline, popular cm sistemas embutidos. Cada nticlco tern um par de unidades de ponto llutuante de emissiło 
dual que. juntas, podcm cmilir quatro instruęóes de ponto flutuante por ciclo de relógio. As unidades tle ponto flu- 
tuante foram aumentadas com unia quantidadc de instruęóes do lipo SIMD que ds vcz.es sao tileis cm cdlculos cicn- 
HGcos sobre matriz.es. Embnra ntio seja nenhum prcguięoso em inatćria de desempenho. esse chip claramentc ndo 
ć um mulliprocessador dc lopo dc linha. 
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As estruluras dos dois niicleos de CPU no chip s3o idSnlicas, mas deslinadas a serem programadas de modus 
diferentes. Urna delas e para calculo; a outra ć para manipular a contunieaęSo enlre os 65.536 nós. 

Ha tres m'veis de caclie presenles no chip. O primeiro ufvel consiste em urna eache l.l dividida com 32 KB 
para instruęóes e 32 KU para dados. Nao ha coerśncia enlre as eaches LI nas duas CPUs porque os niicleos 
PowerPC 440 padronizados nao as supoilam e foi decidido usar os niicleos sem modificaęao. O segundo nivel e 
urna eache unificada de 2 KB. Na verdade. as caches L2 s3o buffers de busca antecipada, em vez de caches verda- 
deiras. Llas esculam urna 3 oulra e mantem eonsisteneia de eache. O terceiro nivel e unia cache compartilhada com 
4 MB que alimenta ambus as caches L2. Urna referenda 3 memńria que encontrar uma ausencia da cache LI, mas 
obtiver urna presenęu na cache L2, leva cerca de 11 ciclos de relógio. Uma ausencia da cache L2 que encontra uma 
presenęa na cache L3 leva cerca de 28 ciclos. Por firn, uma ausencia da cache L3, que lem de ir ale u SDRAM Prin¬ 
cipal, leva cerca de 75 ciclos. 

Uma pequena SRAM esta concctada 3s caches L2. lila esta conectada aos pinos JTAG para inicializaęao, depu- 
raęao, comunicaęao com o hospedeiro principal, conter a pilha do sistema e oferecer operaęóes de semńforo, bar- 
reira e oulras operaęóes de sincronizaęao. 

No próximo m'vel acima, a IBM projetou um cartao especial que conlem dois dos chips mostrados na Figura 
8.32 junto com 1 CiB de RAM. Versoes futuras do cartao poderao conter ate 4 GB. O chip e o cartao sao mostrados 
na Figura 8.33 (u) (b) respcctivamente. 

Os cartóes sao montados em placas de encaixe, com 16 cartóes por płaca para um total de 32 chips — c, assim, 
32 CPUs de c&lculn — por płaca. Visto que cada cartao contem 1 GB de SDRAM, as placas contein 16 GB por 
peęa. Uma placu e ilustrada na Figura 8.33(c). 

No nfvel scguinte, 16 dessas placas sao conectadas na parte dc cima dc um gabinetu e outras 16 sao conecta- 
dus na patie dc baixo. preenchendo um gabinete de 60 cm 7 90 cm com 1.024 CPUs, uma densidude extremamen- 
le altu. Os dois grupos de 16 sao separados por um eomutador que pode remover um grupo do sistema para manu- 
lenęao e, ao rnesnio tempo, comutar para um grupo de reserva. Um gabinetu e ilustrado nu Figura 8.33(d). 
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Por firn, um sistema complelo, que consiste em 64 gabineles eom 65.536 CPUs de calculo e outras 65.536 
CPUs de coinunicaęllo, ć retratado na Figura 8.33(e). Com 131.072 CPUs de mimeros inteiros de emissao dual e 
262.144 CPUs de ponto flutuante de emissilo dual, esse sistema deveria ser capa/ de emilir alć 786.432 instruęóes 
por ciclo de relógio. Contudo, unia das unidades de inteiros alimenta as unidades de ponto llutuante, o que redli/ a 
taxa de instruęao para 655.360 instruęóes por ciclo de relógio, ou 4,6 X 1.014 instruęóes/s. o que o lorna. por urna 
ampla margem, o maior sistema de computaę3o jś constnifdo. 

O sistema e um multicomputador no sentido de que nenhuma CPU tem acesso direto a qualquer memória. 
exceto aos 512 MB em seu próprio carlao. N3o ha duas CPUs que coinpartilhem a mesma memória. Alem disso. 
nao ha paginaęao sob demanda porque nao hd discos locais a partir dos quais paginar. Fm \ez disso, o sistema tem 
1.024 nós de E/S. que estao conectados a discos e a outros dispositivos perifericos. 

Levando tudo em conta, einbora o sistema seja extreniamente grandę, tambem e muito direto, com pouca tec- 
nologia nova, exceto na area de empacotamento de alta densidade. A deeisuo de mantó-lo simples nao lói aciilen- 
tal. urna vez que urna das metas principais era alta confiabilidade e disponibilidade. Por conseqiiencia, urna grandę 
quantidade de cuidadosa engenharia foi dedicada as fontes de energia, ventiladofes, resfriamento e cabeamento, 
tendo como objetivo um tempo mćdio entre falhas de de/ dias. 

Para conectar todos os chips e preciso uma interconexao dc alto desempenho. quc possa ser ampliada. O pro- 
jeto usado 6 um toro tridimensional que tnede 64 X 32 X 32. Como conseqiiencia, cada CPU precisa de seis cone 
xóes, duas para outras CPUs que, em tennos lógicos, estao acitna e abaixo dela, ao norte e ao sul dela, a leste e a 
oeste dela. Fssas seis conexóes san denominadas leste, oestc, norte, sul, para cima c para haixo. respeclivamcntc, 
na Figura 8.32. Em termos ffsicos, cada gabinete de 1.024 nós ć um toro de 8 X 8 X 16. Pares dc gabinctcs vi/i- 
nlios formam um toro de 8 X 8 X 32. Quatro pares dc gabinetes na mesma linha formam um toro dc 8 X 32 X 32. 
Por firn, todas as 8 linhas formam um toro de 64 X 32 X 32. 

Portanto, todos os enlaccs s3o ponto-a-ponto e funcionam a 1.4 Gbps. Umil vez que cada um dos 65.536 nós 
tem trós enlaces para nós de mimeros ‘mais allos', um em cada dimensSo, a largura de banda total do sistema <5 275 
terabits/s. O contciido dc informaęao deste livro e de cerea de 300 milhóes de bits, incluindo loda a parte arlfstiea 
cncapsulada cm formatu PostScript, portanto o BlueGene/L poderia mover 900 mil cópias desie livro por segundo. 
Para onde elas iriam e quem as qucrcria tica como excrcfcio para o leitor. 

A comunicaęao no toro 3D ć feita sob a forma de roteamento por atalho virtual. Essa tćcnica 6 um pouco 
parecida com a eomutaęfio de pacotes arma/cna e rccnvia, cxceto que os pacotes nao sao amiazenados inteiros antes 
de serem recnviados. Tao logo um byle chegue a um nó, ele pode ser repassado para o nó seguintc ao longo do cami- 
nho, antes mesmo de o paeote inteiro ter chegado. Ambos os tipos de roteamento siio possfvcis: o dinamico (adap 
tativo) e o determinfslico (fixo). Uma pequena quantidade de hardware de uso especia! no chip ć usada para itnplc 
mentar o atalho virtual. 

Alem do toro 3D principal usado para transporte de dados, ha outras quatro redes ile comunicaęao presentes. 
A scguuda e uma rede combinada em forma de drvore. Muilas das operaęóes reali/adas em sistemas de alto grau 
de paralelismo lais como o BlueGene/L requerem a participaęao de todos os nós. Por exemplo. considere achar o 
valor mfnimo de um conjunto de 65.536 valores. cada um contido em um nó. A rede combinada junta todos os nós 
em uma drvorc c. scinprc quc dois nós enviarem seus respectivos valores a um nó de n(vel mais alto. ela seleciona 
o menor deles e o reenvia para cima. Desse modo, a quantidade de trafego que chega a rai/ i bem menor do que a 
que chegaria se todos os 65.636 nós enviassem uma mensagem para Id. 

A terceira rede 6 para barreiras globais e intemipęóes. Alguns algoritmos funcionam em fases. sendo que cada 
nó deve esperar atć que todos os outros tenham conclufdo a fasę antes de iniciar a seguinte. A rede de barreira per 
niite que o software defina essas fases e fomeęa um meio de suspender todas as CPUs de calculo que chegarem ao 
finał de uma fasę ate que todas as outras tambem tenham chegado ao finał, quando entno todas sao liberadas. 
Interrupęóes tambem usatn essa rede. 

Tanio a quarta qiianto a quinta redes usam gigabit Ethernet. Uma delas conecta os nós de E/S aos senidores 
de arquivo, que sao extemos ao BlueGene/L. e ii Internet. A mitra ć usada para depurar o sistema. 

Cada um dos nós dc calculo e comunicaęao executa um pequeno micleo especial, quc suporta um linico usud- 
rio e um linico processo. Esse proccsso tem dois threads, cada um executando em cada uma das CPUs no nó. Essa 
estrutura simples foi projetada para alto desempenho e alta confiabilidade. 

Para confiabilidade adieional, o software de aplicaęiio pode chamar um procedimento dc biblioleca para fazer 
um ponto de verificaę9o. Tdo logo todas as mensagens importantes tenham sido liberadas pela rede, pode-sc eriar 
c armazcnar um ponto de verificaę9o global de modo que, no evento de uma falhu do sistema. o job pode ser reini- 
ciado a partir do ponto ile verilicaęao, em vez de a partir do infein. Os nós de F/S esecutain um sistema operacio- 
nal tradiciona! Linux e suportam mulliplos processos. Para mais informaęóes sobre o BlueGcne/l.. veja Adiga et al.. 
2002; Alniasi et al.. 2(X)3a, 2(X)3b; e Blumrich et al.. 2005. 

Red Storni 

Como nosso segundo exemplo ile um MPP. vainos considcrar a móquina Red Storni, tambóm denoininada 
Martelo de Thor, do Sandia National Laboratory. O Sandia e operado pela Lockheed Martin c executa trabalhos con- 
fidenciais e nao eonliilenciais para o Departamentu de Energia dos Estados Unidos. Parte do Irabalho confidcncial 
esld relacionada ao projeto e 9 simulaęao de armas nucleaies, que exige alta capacidadc de cślculos. 

O Sandia esta nesse ramo hó muito tempo e produziu niuitos supercomputadores de tecnologia de pnnta ao 
longo dos anos. Durante decadas deu preferencja a supercomputadores vetoriais, mas, com o tempo, a tecnologia e 
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a economia turoarani os MPPs mais efetivos ein custo. Em 2002, o MPP existentc na ćpoca, denominado ASCI Red, 
estava ficando urn pouco enferrujado. Hmhora tivessc ‘J.460 nós, coleiivamcnic des linham meros 1,2 TB de RAM 
c 12.5 TB dc espaęo dc disco, e o sistema mai conscguia produzir 3 teraflops/segundo. Portonto, no vcrao dc 2002, 
o Sandia escolheu a Cray Research, urna fabricante dc supercomputadores hd inuiur tempo no mercado, para cons- 
truir urn subslituto para o ASCI Red. 

O subslituto fui entregue cm agosto dc 2004, um ciclo dc projeln c implementuje cxcepcionulmcntc cuilo 
para urna maquina de tiio grandę porte. A razao por que o computador pode ser projeludo e entregue com tamanha 
rapidcz e que o Rai Storni usa quasc que somente peęa.s dc pralclcira, cxcel» paru um dos chips cspcciulmcutc nam- 
tados, usado para ruteamenlo. 

A CPti escolhida para o Red Storrn foi a AMD Opteran. A Opteron tern diversas caracteristicas fundamentais 
que influcnciaram u suu escolhu. A primeiru e quc ela leni tics modus operucionais. No modo herdudo ela execulu 
progrumas binarios padrdo Pentium sem modificaęio. No modo compatibilidadc, o sistcina operne ional cx.ec u la cm 
modo 64 bits e pode cndereęar 2 h4 bytes de memória, mas progrumas de aplica jo exceutam em modo 32 bits. Por 
fint, em modo 64 bits, u uuiquinu inleira e de 64 bits e todos os progrumas pudem endereyur todo o espaęo de endc- 
reęo ile 64 bits. Em modo 64 bits, ć possfvel mislurar e combi nur software: programus de 32 bits e progrumas de 64 
bits pudem exccutur ao me sino tempo, o que permite um fueil cuiuinho de atualiza jo. 

A segunda earaetcrfstica fundamental que a Opteron tern e suu alenęao ao problemu da larguru dc bandu da 
memória. Nos ultimos unos, as CPUs estao licundo cuda vez mais rdpidas e a memória n9o consegue acompanhń- 
lus, o que resulla em grandę penalidade quando hd uma ausencia da eaehe de mvel 2. AMD integrou o controlador 
dc memória nu Opteron, de ntodo quc ela pode executur a vclocidadc do processador rclógio cm vez de 5 velocida- 
de do barramento de memória. o quc mclhora o deseAipenho da memória. O controlador pode manusear oito 
DIMMS de 4 GB eada, para um lolal maximo de memória dc 32 GB por Opteron. No sistema Red Storm, cada 
Opteron tem apenas 2 4 GB. Contudo, a medida que a memória lica mais barala, nao hd duvida de que mais serd 
adicionada no futuro. Uma ulualizajo para Opterons de mkleos duais tambćrn ć uma opęSo, o que duplica a capa- 
cidadc bruta de computu jo. 

Cada Opteron tern scu próprio processador dc rede dcdicudo, denominudo Seaslar, fabricado pela IBM. O 
Seastar e um componcnte critico, uma vez que qua.se todo o trdfego entre os proccssadorcs passa pela rede Scastnr. 
Sem a inlerconexdo de altu vclocidude oferecidn por esses chips fabricados especialmente, o sistema rapidamente 
licaria atoludo cm dados. 

Ernbora as Opterons estejam disponfveis no comercio como mercadoria de prateleira. o empacotamento do 
Storm ć labricado sob encomenda. Cada płaca Red Storm contćm quatro Opterons, 4 GB dc RAM, quatro Scaslars, 
um processador RAS (Reliability, Availability, and Service — contiabilidade. disponihilidade c servięo) e um chip 
Ethernet dc 100 Mbps, como mostra a Figura 8.34. 

Um conjunto de oito placas e conectado a um painel truseiro e inserido em uma porta-cartócs. Cada gabincte 
contćm tres porta-cartócs para um total dc % Opterons, mais as fontes de energia e ventiludores necessarios. O sis¬ 
tema complelo eonsistc cm 108 gabinetes para nós de cdlculo, o que dii um total de 10.368 Opterons com 10 TB de 
SDRAM. Cuda CPl só tem acesso k sua própria SDRAM. Nao hd nenhuma memória compartilhuda. A capacida- 
de leórieu de computacdo do sistema ć de 41 teraflops/segundo. 

A interconexao entre as CPUs Opteron ć feila pelos roteadores Seastar, um roteador por CPU Opteron. Elus 
siło conectadas em um tom 3D de tumanho 27 x 16 X 24 com um Seastur em cada porno da ntalha. Cada Seastar 
tern sete enlaces hidirecionnis dc 24 Ghps nas dircęóes norie, leste, sul, oeste, para haixo, para cima e para a 
Opteron. O tempo dc trdnsito entre pontos adjucentes da malha ć de 2 inicrosscgundos. Por meio do conjunto intei- 
ro dc iiós e dc apenas 5 inicrosscgundos. Uma segunda rede que usa uma Ethernet 100 Mbps ć usada para servit,o 
e manulenędo. 
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Alćm cios 108 gahinetcs cle calculo, o sistema tamhem contćrn 16 gabinetes para processadores de E/S e de 
scrvięo. Cada tnn desses gabinetes coutćm 32 Opterons. Essas 312 CPUs s3o divididas: 256 para E/S c 256 para 
servięo. O resto do espaęo t para discos. quc s3o organi/.ados como RAID 3 e RAID 5. cada urn com urn drivc de 
paridade e um sohressalente de cnlrada automatica. O espaęo total dc disco ć 240 TB. A largurn de banda sustenta- 
da em disco 6 50 GB/segundo. 

O sistema e repartiilo em seęócs confidencial e nao confidencial. com comutadores entre as partes, de modo que 
podem ser acopladas ou desacopladas mecanicamcnte. Um total de 2.688 CPUs dc calculo csta semprc na seę3o con- 
lidencial e outras 2.688 sempre na seę3o n§o confidencial. As restantes 4.992 CPUs de rtilcoln podem ser comutadas 
para qualquer scęilo. como demonslra a Figura 8.35. Cada urna das 2.688 Opterons conlidenciais tern 4 OB de RAM: 
todas as outras t«?m 2 GB cada. Os processadores de E/S e de servięo sao subdivididos entre as duas partes. 

O conjunto intciro estd abrigado em um novo ediffcio dc 2.(KK) m : especialmentc constmfdo. O edificio e o 
local foram projetados de modo que o sistema possa ser ampliado para atć 30 mil CPUs no futuro, se for necessd- 
rio Os nós de calculo consomem 1.6 megawatts de energia: os discos consomem mais um megawat). Somamlo os 
\entiladores e os aparelbos de ar condicionado. o pacote todo usa 3,5 MW. 

O hardware e o software do computador custaram 90 milhóes de dólnres. O ediffcio e o sistema de refrigera- 
ę8o custaram mais 9 milhóes. portanto, o custo total ficou um pouco abaixo dc KM) milhóes dc dólares, emborn urna 
parte dessa quantia seja custo de engenharia n&o rccorrente. Se voc8 quiser encomendar um clone cxato, 60 milhóes 
dc ddlares seria um bom numero para pensar. A Cray pretende vendcr yersóes menores do sistema a outros gmer 
nos e a clienles comerciais sob o no mc X3T. 

Os nós de calculo execut:un um nucleo lcve denominado catamnunt. Os nds de E/S c sersięo executam o 
Linux normal com urna pequcna adiędo para suportar MPI (disculida mais adiante neste capftulo). Os nds RAS exe- 
cutam um Linux despojado. HA niuito software ASCI Red disponfeel para usar no Red Storni, incluindo alncado- 
res dc CPU, escalonadores, bibliotecas MPI, bibliotecas de matcmiitica, beni como pmgramas de aplicaęSo. 

Com um sistema tao grandę, conseguir alta conliabilidade ć essencial. Cada płaca tent um processador RAS 
para fazer mauutcnęao do sistema e tambćm ha facilidades especiais de hardware. A meta e um MTBF tMcan Time 
Between Failures — tempo mćdio entre falhas) de 50 horas. O ASCI Red tinha MTBF para o hardware dc 900 
horas, mas era atormentado por urna qucda de sistema operacional a cada 40 horas. Embora o novo hardware seja 
muito mais confiiivcl do que o antigo. o ponto fraco continua sendo o software. 

Se quiscr mais informaęOcs sobre o Red Storm. consultc BrightwcII et al„ 2005. 

Uma comparaęao entre o BlueGene/L e o Red Storm 

O Red Storm e o BlucGene/L s3o compartWcis sob certos aspectos. porćm diferentes sob outros. portanto e 
interessante colocar alguns desses parSmetros fundamentais lado a lado, como apresentado na labela 8.5 

As duas miiquinas foram construfdas na mesma epoca, portanto suas difcrenęas nao se devem h tccnologia, 
mas 3s diferentes visóes dos projetistas c, atć certo ponlo, tts difcrenęas entre os fabricantcs, IBM e Cray. O 
BlueGene/L foi projetado desde o infcio como uma maquina comercial, que a IBM espera vendcr em grandes quan- 
lidades fts empresas de biotecnologia. farm<icC*utica$ e outras. O Red Storm foi construfdo sob contrato especial com 
o Sandia. embora a Cray tambćm planeje construir uma vers3o menor para vcnda. 

A vis3o da IBM ć clara: comhinar micleos existentes para construir um chip especial quc possa ser produzido 
em massa a baixo custo. execu!ar a baixa ve!ocidade e ser interligado em mimeros muito grandes usando uma rede 
de comunicaęao dc velocidade modesta. A vis3o do Sandia ć igualmente clara. mas diferente: usar uma podemsa 
CPU de 64 bits de prateleira. projetar um chip dc roteador muito rtipido c acrescentar uma grandę quantidade de 
memória para produz.ir um nó mais poderoso do quc o BlueGene/L, de modo quc uma qtiantidade menor dcles serii 
ncccssdria e a comunicaęao entre clcs sera mais rdpida. 

As consequ6ncias dessas decisóes se rcfletiram no cmpacotamento. Como a IBM construiu um chip especial 
comhinando pmcessador c roteador, conseguiu uma densidadc de cmpacotamento mais alta: 1.024 CPl Wgabincle. 
Como o Sandia preferiu urn chip de CPU dc prateleira. sem inodificaęao, e 2-4 GB de RAM por nó, ela só conse¬ 
guiu colocar 96 CPUs de compulaęao em um gabincle. O resultudo ć quc o Red Storm ocupa mais espaęo e conso- 
me mais energia do que o BlueGene/I.. 

No mundo exólico da computaęSo de laboratório de Ambito nacional. o importante e o desempenho. Nesse 
a.s|K*cto, o BlueGene/L ganha. 71 TF/s contra 41 TF/s. mas o Red Storni foi projetado para ser cxpansfvcl; |vutan- 
to, acresccntando mais 10.368 Opterons ao problemu — por exemplo. mudnudo para chips de mieleń dual 




tabela u & Comparaęao entre BlueGene/L e Red Storm. 


! Item 

BlueGene/L 

Red Storm ii 

CPU 

PowerPC de 32 bits 

Opteron de 64 bits 

Relógio 

700 MHz 

2 GHz 

CPUs de caiculo 

65.636 

10.368 

CPUs/piaca 

32 

4 

CPUs/gabinete 

1.024 

96 

Gabinetes de cdlculo 

64 

108 

Teratlops/s 

71 

41 

Memória/CPU 

512 MB 

2-4 GB 

Memóńa total 

32 TB 

10 TB 

Roteador 

PowerPC 

Seastar 

Numero de roteadores 

65.536 

10.368 

Interconexao 

Tbros 3D de 64 X 32 X 32 

Toros 3D de 27 X 16 X 24 

Outras redes 

Gigabit Ethernet 

Fast Ethernet 

Pode ser particionado? 

Nao 

Sim 

Sistema Operacional 

Proprietario 

Proprietśrio 

S0 de E/S 

Lintnt 

Linuz 

Fabncante 

IBM 

Cray Research 

Caro? 

Sim 

Sim 


e provavd que o Sandia conseguisse elevar seu desempenho para 82 TF. A IBM poderia rcsponder aumentan- 
do um pouco o relógio — na verdade, 700 MHz nao significa foręar muito a tecnologia existente. Em suma, os 
supercomputadores MPP ainda nao chegaram nem perto de quaisquer limites fisicos e continuarao crescendo por 
muitos anos. 

8.4.3 Computaęao de cluster 

O outro estilo de muiticomputador e o computador de cluster (Anderson el a!„ 1995; Martin et al., 1997). 
Nomialmente consiste em centenas de ntilhares de PCs ou estaęóes de trabalho conectadas por uma płaca de rede 
dixpom'vel no mercado. A diferenęa entre um MPP e um cluster 6 analoga & diferenęa entre um mainframe e um PC. 
Ambos tern uma CPU, atnbos tein RAM, ambos tern discos, ambos tem um sislema operacional e assim por dian ¬ 
ie. Porem, os dos mainlrame sao mais rdpidos (exceto talvez o sislema operacional). No entunto, em termos quali- 
lativos eles sao considerados diferentes e sao usados e gerenciados de modo diferente. Essa mesma diferenęa vale 
para MPPs em comparaęao com cluslers. 

Uistoricamenle, o elementu fundamenta! que tomava os MPPs especiais era sua interconexao de alta veloci- 
dade, mas o recente lanęamento de interconexoes de alta velocidade comerciais, de prateleira, comeęou a fechar 
essa lacuna. Levando tudo em conta, ć provavel que os clusters empurrent os MPPs para nichos cada vez menores, 
exalamente como os PCs transformaram os mainframes em especialidades esotericas. O principal nicho para MPPs 
sao supercomputadores de alto preęo, para os quais o desempenho de pico ć tudo o que interessa e, se voce preci- 
sar pergunlar o preęo, e porque nao pode bancar um deles. 

Embora existam muitos tipos de clusters, ha duas espćcies que dominant: o centralizado e o descentralizado. Um 
cluster centralizado e um cluster de estaęóes de trabalho ou PCs montado em uma grandę estante em uma tinica sala. 
As vezes eles sao empacotados de um modo bem mais compacto do que o usual para reduzir o tamanlio ffsico e o com- 
primcnto dos cabos. Normalmenłe as maquinas sao homogeneas e nao tent perifericos, a nao ser cartóes de redes e, 
possiveImente, discos. Gordon Bell, o projetista do PDP-11 e do VAX, denominou essas imiąuinas estaęóes de traba- 
Iho sent cabeęa porque nao tem proprietarios. Ficamos lentados a denomina-los COWs (vacas) sem cabeęa, mas 
ficamos com medo que esse termo ferisse a susceplibilidade de rnuitas vacas sagradas, portanto, desistimos. 

Clusters descentralizados consistem em estaęóes de trabalho ou PCs espalhados por um edificio ou campus. 
Grandę parte deles fica ociosa rnuitas boras por dia, em especial a noite. Usualmente, s3o conectados por uma LAN. 
Normalnienie sao helerogeneos e tein um conjunto completo de perifericos, embora ter um cluster com 1.024 mou- 
ses na verdade nao e muito melhor do que ter um cluster sem nenhum rnouse. O mais importante e que muitos deles 
tfim proprietarios que tem um apego emocional as suas matjuinas e tendem a olhar com desconlianęa para algum 
aslrónomo que queira simular o big bang nelas. Usar estaęóes de trabalho ociosas para formar um cluster invaria- 
velmente significa dispor de algum ineio de migrar jobs para fora das matjuinas quando seus proprietarios querem 
usa-las. A migraęao tle jobs e posslveI, mas acrescenta complexidade. 
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De modo gcral, os clustcrs s3o conjuntos pcquenos, na faixa de urna dtlzia a talvez 500 PCs. Contudo, tam- 
bem fi possfvel conslruir clustcrs muilo grandes coin PCs de prateleira. O Google fez isso de modo intercssante. 
Vamos vfi-lo agora. 

Google 

O Google fi urn sistema de busca popular para achar informaęóes na Internet. Embora sua popularidade seja 
devida. em parte, 3 sua interface simples c tempo de resposta rńpido, seu pmjeto nilo fi nada simples. Do ponto de 
vista do Google, o problema ć qur cle tein de achar, indcxar e aimazenar loda a World Wide Web (mais de 8 bilhoes 
de paginas e I bilhiio de iniagens). ser capaz. de pesquisar a coisa loda em menos de 0,5 segundo e manipular rnilba- 
n.*s de consultus/segundo que vfim do mundo inteiro. 24 horas por dia. Ademais. ele niio pode parar nunc*, nem 
mesrno em face de terremotos, queda de energia eletrica, qucda de redes de telecomunicaębes. falhas dc hardware 
e bugs de software. E, fi claro, tem de fazer tudo isso do modo mais barato possfvel. Montar um clone ilo Google 
dermitivamente nao fi um exere(cio para o leitor. 

Como o Google conseguc? Para comcęar. o Google opera vdrias centrais de dados no mundo inteiro. Alfim dc 
cssa abordagem proporcionar back-ups no caso de alguina delas ser engolida por um terremoto, quando o wwtwgoo- 
Kle.com fi consultado. o endereęo IP do remetentc fi inspecionado e fi fomecido o endereęo da central de dados mais 
próxima. E fi para Id que o browser envia a consulla. 

Cada central de dados tem, no minimo, urna conexao de libra ótica OC-48 (2.488 Gbps) com a Internet, pela 
qual recebe consultas e envia respostas. bem como urna concxAo de back up OC-12 (622 Mbps i com um outro pro- 
vcdor de telecomunicaęilcs diferente. caso o priinario falbe. Hd fontes de energia protegidas contra interrupęAo e 
geradores a diesel de emergfincia cm todas as centrais de dados para manier o espetaeulo em cena dumnie ipicdas 
de energia. Por eonseqileneia. quando acontece um grandę desastre natural, o desempenho solrer.1 mas o Google 
continuard funcionando. 

Para entender melbor por que o Google escolheu essa arquitetura, fi bom descrcver resumidamente como urna 
consulla fi processada assim que cliega a sua central de dados designada. Após cliegar a central de dados (ctapa I 
na Figura 8.36), o balanceador de carga roteia a consulla paru um dos muitos mnnipoladorcs dc consultas (2) e para 
o revisor ortogrdfico (3) e um scrvidor de antincios publicitarios (4) em paralelo. Kntao. as palavras procuradas sito 
pcsquisadas nos scrvidores dc (ndicc (5) em paralelo. F.sses servidores conlfim urna entrada para cada palavra na 
Web. Cada entrada relaciona todos os documcntos — paginas Web. arquivos PDF', apresentaędes PowerPoint etc. 

que conlfim a palavra. orgailizados por importancia da pdgina. A importdncia da pdgina fi determinada por urna 
formula complicada — e secrcla —. mas o mimero dc refcrfincias para urna pdgina e suas rcspectivns importflncias 
desempenhain um grandę papel. 

Para obter tnaior desempenho, o (ndice fi subdividido em poręGes denominadas fragmentos quc podem ser 
pesquisadas em paralelo. Ao menos em termos conccituais. o fragmenlo I conlfim todas as palas ras no (ndicc, sendo 
quc cada urna delas fi acompanhada pelos IDs dos ii documcntos de imporlftncia mais alta que conlem aquela pala- 
vra. O fragmenlo 2 conlfim todas as palas ras c os IDs dos // documcntos de importSncia mais alta seguintes c assim 
por dianie. A inedida que a Web cresce, cada um desses fragmentos pode ser subdividido mais tarde, com as pri- 
meiras k palavras cm um conjunto de fragmentos, as seguintes k palavras em um segundo conjunto de fragmentos 
c assim por dianie, de modo a conseguir cada vez mais paralclismo na busca. 

Os servidorcs de (ndice retomam um conjunto de identificadores de documcntos (6). quc entao sao combinados 
de acordo com as propriedades Inmleanas da consulla. Por exemplo, se a pesipiisa for para +digital +capivara łdanęa, 
entao só os identificadores de documcntos quc aparecenr em toilos os tres conjuntos sao usados para a próxima etapa. 


Flnura 8.36 

Processamento de uma 
consulta no Hoogle 














Nessa etapu, (7), o* próprios documentos sito rcfercnciados para extrair seus tflulos, UKL e pedacinhos dc 
lexlo que ccrcum os termos de pesquisa. Os servidores de documentos contem muitas cópias de lodu a Web 
etn cada central de dados, que hojc stio centenas de lerabytes. Os documentos tambćm siło divididos em fruj*- 
mentos parą melhorar u pesquisu paralela. Rmbora o processamento de consultas nao exija a leitura da Web 
inteiru (ou iiić mesino a leitura das dezenas de lerabytes nos servidores de indice), ter de processar KM) MB 
por pesquisa e normul. 

Quundo os rcsultados sflo devolvidos ao manipulador de consultas (8), as pńginas cncontradas sao reuni- 
dus e classifieudas por importanciu de pdgina. Se forem detectados potenciais erros de ortogruftu (9), eles sao 
anunciados e sSo adicionados aniincios publicitdrios relevantes (10). Apresentar propaganda de anuneiantes 
interessados em comprar termos especificos — por exemplo, 'hotel' ou ‘camcorder’ — e o modo como o 
Google ganha sou dinheiro. Por lim. os resultados stio formatados cm HTML. (HyperText Markup Language 
- linguagem de monlugem de hiperlexto) e cnviados ao usuario como urna pdgina Web. 

Munidos dessas informuęftcs bdsicas. agora podetnos examinar a arquitctura do Google. A maioria das 
empresas. quando confrontadas com um imenso banco de dados, taxa de transmissdo macięu e a necessidade de 
alta conftabilidade, comprariu o equipamento maior, mais rdpido e mais confidvel existente no mercado. O Google 
fez exatamente o oposto. Comprou PCs barutos, de desempenho modesto. Muitos deles. E, com eles, montou o 
maior cluster de prateleira do tnundo. O principio diretor dessa decisao foi simples: otimizar preęo/desempenho. 

A Ińgica que fundamentou essa decisao estd na economia: PCs normais siło muito barutos. Servidores de altu 
tecnologia nao sdo e grandes multiprocessadores, me nos ainiia. Assim, conquanto urn servidor de alta tecnologia 
pudesse ter duas ou tres ve/es o desempenho de um PC de mesa mćdio, normalinente seu preęo seria 5 a 10 vezes 
mais alto. o quc nao e ełiciente em termos de custo. 

Claro quc PCs barutos falham mais do que servidores de topu de linha, mas os ultimos tambćm falham, por 
tanto o software do Google linha de ser projetado paru funcionar com hardware que falluwn. n;io importundo iptal 
equipamenlo estivesse usando. Urna vez. escrito o software tolerante a falhas, na verdade nao iniportava que a taxa 
de falha fosse (),59( por ano ou 2% por ano, elas lerium de ser tratadas. A experićncia do Google diz que ccrca de 
2% dos PCs falham por ano. Mais da metade das falhas se deve a discos defeituosos, seguidos por fontes de ener¬ 
gia e chips RAM. Urna vez constmfdas. as CPUs nunca falham. Na yerdude, a maior fonte de qucdas nao e o hard¬ 
ware: e o software. A primeira reaęao a urna queda ć apenas rciniciali/ur, o que muitas ve/es rcsolve o problemu 
i o equivulente eletrónico de um medico di/er: "Tome duas aspirinas c vd para u canta". 

Um tipico PC moderno do Google consiste em um Pentium de 2-Gllz, 512 MB de RAM e um disco de cerea 
de 80 GB, o lipo de maquina que urna avó comprariu para verificar ocusionalmente seu e-mail. O tinico item espe- 
cializado e um chip Ethernet. Nflo exalamenle um chip de dliimu gcraęao, mas um chip muito burato. Os PCs sao 
acondicionados em cuixas de I unidade de altura (ccrca de 5 cm de espessura) e empilhudos em grupos dc 40 em 
eslamcs de 50 centiiuciros. urna pilha na frentc e urna pilha atras, no lotul de 80 PCs por estante. Os PCs que estao 
em urna estante siin conectudos por Ethernet comutada e o comutador estd dentro da estante. As estantes em urna 
central de dados tambćm sao conectadas por Ethernet comutada, com dois comutadores redunduntes por central ile 
dados usados para sohreviver a falhas de comutadores. 

O luyoul de unia tipica central de dados Google ć ilustrado na Figura 8.37. A fibra OC-48 de altu lurguru 
de banda de entrada e roteada para cuda um de dois comutadores Ethernet de 128 portas. De modo semelhun 
te, a fibra OC-12 de backup tuinbem e roteada para cuda um dos dois comutadores. As tihras de entrada usum 
cartóes especiais de entrada e nilo ocupam nenhuma das 128 portas Ethernet. Quatro enlaces Ethernet saem de 
cada estante: dois para o comutador da esquerda e dois para o comutador da direita. Nessa configuraęiio, o sis- 
tema pode sobrevi\er a falha ile qualquer dos dois comutadores. Urna vez que cada estante tern quatro conexóes 
com o comutador (dois dos 40 PCs da frente c dois dos 40 PCs de mis), e preciso ijuatro falhas de cnluce ou 
duas falhas de cnluce e urna de comutador para tirar urna estante de linlui. Com um par de comutadores de 128 
portas e quatro enlaces de cada estante, ate 64 estantes podem ser suportadas. Com 80 PCs por estante, unia 
central de dados pode ter ate 5.120 PCs. Mas. e claro, as estantes nao tćm de conter exatamente 80 PCs e os 
comutadores podem ser maiores ou menores do que 128 portas; esses dados sao apenas dado tipicos de um clus 
ter Google. 

A densidude de energia lumbćm e umu ijueslao fundumentul. Um PC tipico ulilizu 120 watts, ou cerca de 10 
kW por estante. Unia estante precisa de cerca de 3 nr, para que o pessoal de manutenęao possa instalare remover 
PCs e para que o condicionamento de ar funcione. Esses parametros dao urna densidade de energia de mais de 3.000 
watts/m". A maioria das centrais de dados e projetada para 600-1.2(M) watts/m 2 , porlaiilo sao necessarias medidas 
especiais paru refrigerar as estantes. 

O Google aprendeu trćs coisus sobre cxecutar sen idores Web mąciłoś que e bom repetir: 

1. Componentes falham. portanto piane je a falha. 

2 . Duplique tudo para manier a vaz3o e a disponibilidade. 

3. Olimi/e preęo/desempenho. 

O primeim item diz que vocĆ precisa ter software tolerante a falhas. Mesmo com o melhor dos equipamentos, 
se voce tiver um niimero macięo de componentes, algum falhara e o software tern de ser capaz de tralar o erro. Quer 
voce tenha urna falha por semana ou duas falhas por semana, com sistemus desse tamanho o software tern de ser 
capaz. de tratar essas falhas. 
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Flmira 8.37 

Cluster Google lipico. 



O segundo ilcm indica tjue mnbos, hardware e software. tC*m de leralto grau de redundilncia. Alem de tnclhorar as 
propriedailes de tolerancja a falhas. isso tambćm inclhora a vazao. No caso do Google. os Pt's, discos. cahos c comula- 
dorcs sao tixlos replicados muitas vezes. Alćm do muis, o fndicc e os documentos sao subdivididos cm fragmentos e os 
fragmentos sito muito replicados em cada central de dados c as prńprias centrais dc dai|os tamhdm sito replicadas. 

O tcreeiro item ć uma conseqllSncia dos dois priineiros. Se o sistcma foi projelado corretamente para lidar com 
falhas, eomprar componentcs caros como RAIDs com discos SCSI ć urn erro. Atd eles falhanlo, mas gastar dc/ 
ve/.es tnais para reduzir a taxa de falhas h inetadc d uma md iddia. Melhor eomprar de/. vezes mais em hardware c 
tratar as falhas qunndo elas oeorrerem. No mfnimo, ter mais hardware resullara em melhor desempenho quando tudo 
cstivcr funcionando. 

Se quiser mais informaęóes sobre o Google. veja Barroso et al.. 2003: e Ghemawat et al.. 2003. 

8.4.4 Software de comunicaęao para multicomputadores 

Prograntar um multicomputador requer software especial, usualmcnle bibliotecas. para manipular a comunica¬ 
ęao e a sinetonizaęao entre processos. Nesta seęflo vanios falar um pouco sobre esse software. Na maiotia das vezes, 
os mesmos pacotcs de software exccutam em MPPs e clusters, portanto d fdcil portar aplicaęócs entre platarormas. 

Sistcmas de troca de mensagens tem dois ou mais processos que executam independenteniente um do outro. 
Por exemplo. um processo pode produzir alguns dados e um. ou outros mais. podem consumi-los. Nao hit nenhu- 
ma garanlia tle que, quando o rcnielente tiver mais dados, os receptores eslarao prontos para elc. pois cada um exe- 
cuta seu prńprio programa. 

A maioria dos sistemas de troca de mensagens fornece duas primitivas (usualmente chamatlas dc bihliotcca). 
send e receive, mas divcrsos tipos de semanticas sao possfvcis. As tres varianlcs principais sao: 

1. Troca sfnerona de mensagens. 

2. Troca de mensagens por buffers. 

3. Troca de mensagens sem bloqueio. 

Em troca sfnerona de mensagens. se o rcmetente cxecuta uma send e o receptor aintla ndo execulou uma 
recoive, o rcmetente ć bltHiueatlo (suspenso) alć quc o receptor cxecute uma receive, qunndo entflo a mensagent 6 
copiada. Quando o rcmetente obtivcr mmmente o controle apńs a chamada, ele sahe que a mensagem foi erwiada 
e corretamente recebida. Hsse metodo e o que tern a scmdntica mais simples e ndo rcquer nenhuma operaęSo dc buf 
fer. Potćm. uma sćria desvantagem ć que o remctcnlc pentianece bloqueado atd quc o receptor lenha adquirido a 
mensagent e reconhecido seu rccebimento. 

Em troca de mensagens com buffer, quando uma mensagem ć cnviada antes de o receptor estar pronto. ela 
ć colocada em alguin buffer, por exemplo, em uma caixa de correio, atd que o receptor a retire dali. Assim, em troca 
de mensagens com buffer. um rcmetente pode continuar após uma send. ainda que o receptor esteja ocupado com 
alguma outra coisa. Visto que a mensagem jd foi enviada, tt remetente estś livre para rcutili/.ar imediatamentc o buf¬ 
fer de mensagens. Esse csquema reduz o tempo que o remetente tem de esperar. Basicamente. tao logo ele lenha 
enviado a mensagem, podeni continuar. Todavia, agora, o remetente nao tem nenhuma garanlia de que a mensagem 
foi corretamente recebida. Ainda que a comunicaęao seja confiavel, o receptor pode ter sofrido uma avaria antes de 
receber a mensagem. 




Etn Irocu de mensagens seni hloqueio. o remetente tem permissao para cnnlinuar imediutaniente após fu/er 
a chamadu. -A biblioleca apenas diz ao sistema opcracional para fazer a chamada mais tardc. quando (iver tempo. 
Como conseqtlencia, o remetente mai lica hloqueado. A desvantagem desse metodo ć ijue, quando o remetente con¬ 
tinua após a send, talvez nSo possu reutilizar o bulTer de mensagens porque a mensagem pode nao ter sido enviada 
uinda. Ele precisa dcscobrir, de alguma forma, quando pode utilizar novamente o buffer. Unia idćia e fazer com quc 
o remetente sondę o sistema e pergunte. Oulra i obter utną inlerrupęilo quando o bulTer estiver disponfvel. Nenhuma 
dclas simplitlca o software. 

logo adiantc \amos diseutir brevemente urn sistema popular de troca de mensagens disponivel em muitos 
multicomputadores: a MIM 

MPI — lnterface de troca de mensagens 

Duruntc muitos unos. o paeote de comunicaęSo mais popular para multicomputadores foi u PVM (Parallel 
Yirtual Machinę) (Ueisl et al.. 1994; e Sunderram, 1990). ('onludo. nos ultitnos anos ele vem sendo substitufdo 
em grandę parte pela MIM iMessage-Passing lnterface — lnterface de troca de mensagens). A MIM e muito mais 
lica e mais complexu do que u PVM, tem muito mais chumadas de biblioteca, muito mais opęfies e muito mais parfi- 
metros por chamada A versao original da MPI, agora denominada MPI-1. foi ampliada pela MPI-2 em 1997. Mais 
adiantc daremos urna inlroduęao muito sucinta ii MIM-I (que coniem todos os aspectos bdsicos) e em seguida 
comcuturemos um pouco o quc foi adicionado na MPI-2. Se o leitor quiscr mais informuęóes sobre MPI, pode con- 
sultar (iropp et al.. 1994; e Snir et al., 1996. 

A MPI-I n3o lida com criaęau nem gerenciamento de processo, como a PVM. Cabe ao usuńrio criar proces- 
sos usando chantadas locais de sistema. Urna vez criados, os processos s3o organizados em grtipos estrilicos de pro- 
cessos, que nao sao allcrados. F com esses grupos que a MPI trabulha. 

A MIM e bascada em quutro conecitos principuis: comunicadores, tipos de dados de mensagens, opcraęfcs dc 
comunicuęan e topologius \irtuais. Um comunicudor e um grupo de processos mais um contcxto. Um contcxlo e 
um rńtulo que identiliea algo, tal como uma fasę de execuęao. Quundo mensagens sdo enviadas e recebidas, o con- 
tcxto pode ser usado para itnpedir que mensagens nilo relacionadas inlcrfiram umas com as outras. 

Mensagens tem tipos e muitos tipos de dados sao suportados. entre eles caracteres, numeros inteiros longos, 
normais e curtos. numeros ile ponto tlutuanie de precisao simples e dc precisdo dupla c assim por diunie. Tambem 
e possfvel construir outros tipos derivados desses. 

A MIM suporlu um conjunto extensivo de operaęóes de comunicaęSo. A mais bSsica i usuda para erniar mensa¬ 
gens como segue: 

MPI Send<buftei count, datajype. destination, tag, communicator) 

Essa chamada cnvia ao dcsluiatihio um butler com um numeru auuii de itens do lipo dc dados cspeciticado. O campo 
mg rotula a mensagem de modo que o receptor possa dizer que só quer reeeber uma mensugem com aquele rotulo. 
O ultimo cumpo infomia em quill grupo de processos estd o destinaldrio (o campo deslination 6 apenas um fndicc 
paru u lista de processos do grupo espedficado). A chamada correspondenle para reeeber uma mensagem ć: 

MPI Recv(&bulti)r count, datajype, sourco. tag. communicator. &status) 

que anuneia quc o receptor esta procurando uma mensagem dc um certo tipo vinda de unia certa fonie coni um certo 

rótulo. 

A MPI suporlu quulro rnodos bdsicos de coniunicaęao. O modo I e sfnerono, no ipial o remetente niio pode 
cumeęar a enviur ule que o receptor tenha chamadu MPI_Recv. O modo 2 usa buffer e, com ele, a restrięSo que aca- 
bamos de citar nao c salida. O modo 3 6 padrdo, que e implementaęao independente e pode ser sfnerona ou com 
buffer. O modo 4 i? o modo pronto, no qual o remetente declara que o receptor estd disponfvel (como no modo sfn¬ 
erono), mas nao la/ nenhuma verificaęSo. Cada uma dessas primitivas vcm em uma versao com hloi|ueio ou sem 
hloqucio, o que resulla em oito primitivas no lotal. A recepęao lent só duas variantes: com bloqueio c sem bloqueio. 

A MIM suporlu coniunicaęao coletiva, incluindo broadcast, espalhu/reune, pennula total, agregaęao e barreira. 
Seja qual lor-a forma de coniunicaęao coletiva, todos os processos em um grupo devem fazer a chamada e com argu- 
mentos compativeis. Nao fazer isso e um erro. Uma forma tfpica de comunicaęao colctiva sao processos organi/a- 
dos cm uma arvore. na qual os valores se propagam das folhas pura a raiz, passando por algum processamento a 
cada etapu, por exemplo. somar valores ou tomar o nidxinio. 

O quarto coneeilo bdsico em MPI e a topologia virlual, na qual os processos podem ser organizados em topo¬ 
logia de drvore, anel. grade, loro ou oulra. Essa organizaęao proporciona um tneio de noincar cuminhos de comu- 
nicuędo c facilitu a comunicaędo. 

A MPI-2 udicionu processos dindmicos, acesso a meinóriu remota, coniunicaęao colctiva sem bloqucio, 
suporte pura li/S esculdvel, processamento em tempo real e muilas outras novas caracterfsticas que fogem ao 
escopo deste livro. Duruntc anos foi travada uma batalha nu comunidade cientffica entre os defensores da MPI 
c da PVM. O lado da PVM afirntuvu que a PVM era mais fdcil dc aprender e mais simples de usar. O lado da 
MIM dizia que u MPI faz mais e tambem destacava que ela e um padrdo fonnal, apoiada por um comile de padro- 
nizaędo e um documenlo olicial de dcfinięao. O lado da PVM concordou, mas deelarou que a falta de unia huro- 
cntcia complcta de pudroni/aęiio nao ć necessariamente uma desvantagem. Depois de muita discussao, parecc 
que u MPI vcnccu. 
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8.4.5 Escalonamento 

Programadores de MPI podeni criar jobs com facilidade requisitando vdrias CPUs e executando durante perfo- 
d°* substaneiais de tempo. Quando varias requisięóes independentes estao disponiveis vinilas de diferentes usua- 
rios, cada urna necessilando um numeru diferente de CPUs por perfodos dc tempos diferentes. o cluster precisa de 
utn escałonador para determinar qual job e executado e quando. 

No modelo mais simples. o escałonador de jobs requer que cada um especiftque quanlas CPUs necessita. Entao 
os jobs s3o executados cm estrita ordem F1FO, como mostra a Figura 8.38(a). Nesse modelu, após um job ser ini- 
ciado. e feita unia verificaęao para vcr se ha numero suficiente de CPUs disponfveis para iniciar o próximo job que 
esta na lila de entrada. Sc houver. esle ć iniciado e assim por dianie. Caso contrdrio, o sistema espcra ate que mais 
CPUs liquem dispom'veis. A propósito, enibora tenhamos sugerido que esse cluster tern oito CPUs. ele poderia per- 
feitamente ter 128 CPUs que sao alocadas cni unidades de 16 — o que da oito grupos de CPUs — ou alguma outra 
combi naęao. 

Um algorilmo dc escalonamento melhor evita bloqueio de cabeęa de fila saltando jobs que nao cabem e esco- 
Ihendo o primeiro que couber. Sempre que um job lermina. urna fila de jobs remanescentes e verificada cni ordem 
FIFO. Esse algorilmo dd o resultado da Figura 8.38(b). 

Um algorilmo de escalonamento ainda mais solisticado requer que cada job apresentado especifique seu for¬ 
matu. isto ć, quantas CPUs quer durante quantos niinulos. Com essa infomiaęao. o escałonador de jobs pode tentar 
montar um esquema em lajotas com o tempo da CPU. Esse esquema e especialmente efetivo quani|o os jobs sao 
apresentados durante o dia para cxecuęao 3 noite. portanto o escałonador tern todas as informaęóes sobie os jobs 
com antecedencja e pode executa-Ios em ordem ótima, como iluslrado na Figura 8.38(c). 

8.4.6 Memória compartilhada no nivel de aplicaęao 

Algo que deve ficar claro por nossos exemplos e que os niulticomputadores podeni ser ampliados para tamanhos 
maiores do que os multiprocessadores. Essa realidade levou ao desenvolvimento de sistemas ile troca de mensagens 
como a MPI. Muitos programadores nao apreciani esse modelo e gostariam de ter a ilusao tle memória compartilha- 
da. ainda que ela nao estivesse realmente ali. Atingir esse objetivo seria o melhor de ambos os mundos: liardware gran¬ 
dę e banito (por nó. ao menos). mais facilidade de programaęao. Esse e o Santo Graal da computaęao paralela. 

Muitos pesquisadores conclufram que, embora a capacidadc de ampliaęao da memória compartilhada no n(vel 
da arquitetura nao seja boa. pode havcr outros modos de atingir o mesnio objelivo. Pela Figura 8.17. vemos quc hd 
outros nfveis nos quais urna memória compartilhada pode ser introduzida. Nas seęóes seguintes. examinaremos 
alguns modos pelos quais a memória compartilhada pode ser introduzida em um multicomputador no modelo dc 
programaęao, sem estar presentc no m'vel do hardware. 

Memória compartilhada distribuida 

Urna classe de sistema de memória compartilhada no n(vel de aplicaęao € o sistema baseado cm paginas. E 
conhecido pelt) nonie I)SM (Distrihuted Sliared Memory — memória compartilhada distribuida). A idćia € 
simples: um conjunto de CPUs em um multicomputador compartilha um espaęti de endereęo virtual paginado. Na 
versao mais simples, cada pagina e mantida na RAM de exatamente urna CPU. Na Figura 8.39(a) vemos um espa- 
ęo de endereęo virtual compartilliado que consiste em 16 paginas. distribuidas por qualro CPUs. 

Quando unia CPU referenda urna pdgina em sua própria RAM local, a escrita ou leitura apenas ocorre. sem 
mais demora. Contudo, quando urna CPU referencia urna pagina em urna memória renrota, obtćiti uma falta de pagi¬ 
na. Só que, em vez de a pdgitia faltante ser trazida do disco, o sistema de execuęao ou sistema operaciona! envia 
uma mensagem ao nó que contem a pagina ordenando que ele a desmapeie e a envie. Após a pagina ehegar. ela e 
mapeada para a CPU e a instruęao de falta e rciniciada. exatamente como uma falta de pdgina normal. Na Figura 
8.39(b) vemos a situaęao após a CPU 0 ter sofrido uma falta na pagina 10: ela e movida da CPU I para a CPU 0. 


Figura 8.38 

Escalonamento de um 
cluster. (a) FIFO. |b| Sem 
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Espaęo de endereęo 
virtual que conaiste em 16 
pśgmas distnbuidas por 
quatro nos de um 
multicomputador. 

(a) Situaęao intclal. 

(b| Apos a CPU 0 
reterenclar a pdgina 10. 

|c| Após a CPU 1 
referenctar a pagtna 10. 
neste caso considerando 
que ela e uma pdgina 
somente de leitura. 



Essa ideiu basicu foi implemcntada pela primeira vez em IVY (Li e Hudak, 1986. 1989). Ela proporciona unia 
memoria lotalmente coinpanilhąda e seqiiencialmente consistente em um multicompulador. Contudo, ha muitas oti- 
mizaęócs possiYeis paru melhorar o desempenho. A priincira otimizuęao, presenle em 1V Y, e permitir que as pup i 
nus mureudus como somente de leituru estejam presentes em varios nós uo mesmo tempo. Assini, ipiuiulo ocorre 
uma falta de puginu urna cópia dela ć cnviadu paru a mdquina oude ocorreu a falta. mus a original fica mule esta, 
ja que nao ha nenhuin perigo de conflilos. A situaęao de duus CPUs que eompartilham uma pdgina somente de lei¬ 
turu (puginu 10) ć ilustrudu na Eiguru 8.39(c). 

Mesmo com essa otimizaędo, o desempenho muilus vczcs ć inaceildvel, em especial cjuuiido um proccsso esta 
eserc\cndo alivamente ulgumas pulavras no topo de ulguma pdgina e um outro proccsso em uma CPU difercnte esta 
escrevendo ativumeute ulgumas paluvras no finał da pdgina. Visto que só exis(e uma cópia da pdgina. ela Ikara em 
constante ir e vir, uma situuęao conheeida como fulso conipartilhuineulo. 

O pioblcmu do falso compartilhamento pode ser atacado de vdrias maneiras. No sistcma Treadmarks, por 
cxcinplo, memoria seqiiencialmente consistente e ubandonada em favor da consistćncia de liberaęao (Amza, 1996). 
Paginas ijuc pudem ser escrilas pudem estar presentes em multiplos nós ao mesmo tempo, mas, unieś de fa/er uma 
escrita, um proccsso deve primeiro realizar uma operaęao acqulre para sinalizar sua intenęóo. Ncsse ponto, todas as 
cópias, exce‘to u mais recente. sdu invalidadas. Nenhuma ouira cópia pode ser feita atć que seju executada a release 
correspondente, quando entao u pdgina pode ser coinpartilhuda mnamente. 

limu segundu otiimzaęao feita em Treadmarks e inicialmente mapear cuda pdgina que pode ser cscrita, em 
modo somente de leitura. tjuando a pdgina ć escritu pela primeira vez, ocorre uma falha de proteęSo e o sistcma 
faz uma cópia da pdgina, denominadu genua Entao a pdgina original e mapeada como de leitura-escrita e as 
escrilas subseqiientes pudem prosseguir a loda velocidade. tjuando ocorrer uma falta de pdgina remola mais 
tanie, e u pdgina liver de ser despuchada para onde ocorreu a falta, e rcalizada uma comparaędo puluvra por pulu- 
vra entre a pdgina corrente e a gemea. Somente as palavras que forarn alteradas sao enviudas, o que reduz o tama* 
nho das mensugens. 

tjuando ocorre umu falta dc pdgina, a pdgina que esta faltando tern de ser loculizada. Hd vdrias soluęóes 
possiveis, mci u indu as usudas em mdquinas NIJMA e CQMA, tuis como diretórios (residentes). Na verdade, mui¬ 
tas das soluęóes usudus em DSM tumhem sao aplicdveis a NUMA e CUMA porque, na realidade, DSM ć upe- 
nus uma implementuęao em softwure de NUMA ou COMA na qual cuda pdgina ć tratudu como uma linhu de 
cuchę. 

DSM ć uma area de pesquisa muito promissora. Entre os sistemas interessantes citamos CASHMERE 
(Kontothanassis, et ul.. 1997; e Stels et ul., 1997), CRL (Johnson et al.. 1995), Sltasta (Scales cl al., 1996) e 
Treadmarks (Amza, 1996; e Lu et al., 1997). 


MemOńa virtual de compaituhamenlo yloDal que consisle em 16 pdginas 
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Linda 

Sisiemas DSM haseados em paginas como o IVY e o Treadmarks usam o hardware MMI 1 para causar exccęftes 
de acesso as paginas faltanles. Se hem que calcular e enviar di Tereni,'as em vez, da p.lgina intcira ajudc, pennancce o 
falo de que paginas nao sao uma unidade natnral para compartilliamenlo, portanto Torarn lenladas oulras abordagens. 

Uma delas e Linda, que fornece processos em vdrias maquinas com uma mcmória compartilhada distribulda 
com alto grau de estruturaęSo (Camera e Gelerntcr, 1989). Essa memória ć accssada por meio de um pequeno con- 
junto de operaęOes primilivas que pudem ser adicionadas a linguagens existentes, tal como C e FORTRAN, para 
formar linguagens paralelas, nesse caso, C-Linda e FORTRAN-Linda. 

O conceito unificador fundamental de Linda e o de um espaęo abstrato de tuplas. que e global para o sislema 
inteiro e acessfvel a todos os seus processos. O espaęo de luplas ć como uma memdria global compartilhada. sd que 
com uma certa eslrutura embutida. O espaęo de luplas contćm uma certa quantidade de tuplas. cada uma delas con- 
sistindo em um ou mais campos. Para C-Linda, os tipos dc campus incluem inteims. inleiros longos e numeros de 
ponto flutuanle, bem como tipos compostos como vetores (incluindo cadeias) e estruturas (mas nao outras tuplas). 
A Figura 8.40 mostra trćs cxemplos de tuplas. 

Siio quatro as operaęóes efetuadas em tuplas. A primeira. out, coloca uma tupią no espaęo de tuplas. Por excmplo, 
outfabc" 2, 5); 

coloca a tupią (“abc”, 2,5) no espaęo de tuplas. Os campos de out normalmente sao constantes. variśveis ou expres- 
sdes, como em 

out("matrix-r, i, j. 3.14); 

quc produz uma tupią com quatra campos, o segundo e terceiro dos quais sao determinados pelos valores corrcnles 
das varidveis i e j. 

Tuplas s3o recuperadas do espaęo de tuplas pela primitwa in. Elas sao endereęadas pelo conteudo em vez dc 
pelo nome ou endereęo. Os campos de in podem ser expressóes ou panlmetros fomiais. Considere, por esemplo. 
InCabc". 2. 7 I); 

Hssa operaęao ‘pesquisa’ o espaęo de tuplas em busca de uma tupią composta por uma cadeia “abc”. pelo inteiro 2. 
e por um terceiro campo que contćm qualquer inteiro (considerando que i ć um inteiro). Se encontrada, a tupią ć 
retirada do espaęo de tuplas e o valor do terceiro cabipo ć atribufdo i) vari,1vel /. A compatibilizaęao e a rcmoęao 
sao atdmicas. portanto. se dois processos executarem a mesma operaęao in simultancamente. somente um deles serś 
bem-sucedido, a menos que duas ou mais tuplas compatfveis estejam presentes. O espaęo dc tuplas pode atć center 
inultiplas cópias da mesma tupią. 

O algoritmo de compatibilizaęao usado por in ć direto. Os campos da primitiva In. denominado gabarito. sao 
comparados, conceilualmente, com os campos correspondentes de toda lupla que cstiver no espaęo de tuplas. 
Ocorre uma compatibilizaęao se todas as trfis condięfles seguintes Torem cumpridas; 

1. O gabarito e a tupią tćm o mesmo ntimero de campos. 

2. Os tipos dos campos correspondentes sao iguais. 

3. Cada constante ou variśvel no gabarito ć compatfvel com seu campo de tupią. 

Par&metros Tormais, indicados por um ponto de interrogaęao seguido por um nome ou lipo de vartóvel, nao 
participam da compatibilizaęao (exceto para verificaęao do tipo), embora os que contćm um nonie dc varićvel sejam 
alribufdos após uma compatibilizaęao bem-sucedida. 

Se nenhuma tupią compat(vel estiver presente. o processo de chamada ć suspenso atć quc um mitro proccsso 
insira a tupią necess&ria, ąuando entao o processo chamador ć automaticamente revivido e recebe a nova tupią. O 
Tato de os processos bloqueareni e desbloquearem automaticamente significa que, se um processo estiver prestes a 
produzir uma tupią e um outro estiver prestes a receb6-la. nao importa qual deles vai ocorrer primeira. 

Alćm de out e in, Linda tatnliem tern uma primitiva read. que ć igual a in. excetn quc nao retira a tupią do espa- 
ęo de tuplas. Tambćm ha uma primitiva eval. que Taz com que seus parSmetros sejam avaliados em paralelo e a tupią 
resultante seja depositada no espaęo de tuplas. Esse mecanisino pode ser usado para eTetuar um calculo arbitrario. 
E assim que processos paralclos sao criados em Linda. 

Um paraaigma de programaęao comum cm Linda e o modelu operario replicado. Esse modelo e baseado na idćia 
da sacola de tareTas cheia de jobs por Tazer. O processo principal inicia out executamlo um laęo que contćm 
out(“task-bag", 7job); 

no qua! uma descrięao de job diTerente e proiluzida para o espaęo de tuplas a cada ileraęao. ( ada operario comeęa 
obtendo uma tupią dc descrięao de job usando 
ln(''task-bag", ?job); 


Hniira 8.40 

Tres tuplas Linda. 


("abc", 2, 5) 

("malrix-1", 1,6,3.14) 

("familia", "ś irm§". Carolyn, Elinor) 



que cle en tao executa Quundo terminu, pega urna ouira. Alem disso, novos trabalhos podem ser colocados na saco- 
la de larefas durantc a execuęao. Dcsse modo simples, o traballio e divididu dinainicamentc enire os operarios. e 
cadu opcrario e mani ido ocupado o tempo lodo. e tudo com relutivamente pouca sobrecarga. 

Existem yarias impleincnluęócs de Linda em sistemas mullieomputadores. Em todas elas. urna questao funda- 
mental ć como distribuir as tuplas entre as maquinas e como localiza-lus quando necessśrio. Enire as vdrias possi- 
hilidades estao broadeusting e diretórios. A replicaęao tuiitbćm ć umu questao import antę. Esses pontos sńo discu- 
tidos eiu Bjomsnn (1993). 

Orca 

Urna ubordagem urn pouco diferente para a memória compartilhada no n(vel dc aplicaęilo em urn multicom- 
putador ć usar como unidude de compartilliamento objetos tolalniente desenvolvidos, em vez dc apenas tuplas. 
Objetos consistem ciii estado interno (oculto) niais mćtodos para operar naquele estado. Por nao permitir que o pro 
gramador acesse o estado dirctamcnle, sao abertas muitas possibilidades para permitir compartilhamento por 
maquinuN que nao tein memória ffsica compartilhada. 

O sisteina baseado cni objetos que da a ilusdo de memória compartilhada em sistemas mullieomputadores e 
denominado Orca (Bal. 1991: Bal et al.. 1992; e Bal e Tanenbaum, 1988). Orca ć urna linguagent dc programaętto 
tradicional. baseada em Modula 2, lt qual forum adicionadas duas novas caracterfsticas: objetos e a hubilidadc de 
criar novox proccssos lim objęto Orca e urn tipo de dados ahstrato, unalogo a urn objęto em Java ou a urn pacotc 
em Ada. Ele encapsula estruturas de dados intemas e mćtodos escritos pelo usuario denominudos opcraęóes. 
Objetos s3o passivos, isto ć, nao contćm threads para os quais podem ser enviadas mensagens. Hm vez disso, pro- 
cessos acessam os dados intemos de utn objęto invocando seus mćtodos. 

Cuda metodo Orca consistc em urna lista dc pares tguardu, bloco de deelaraęócs). Umu guurdu ć urna expres- 
sao biMileana quc nao contćm nenhum efeito colutcrul, ou a guarda vazia, que e o mesmo que o valor tnie. Quando 
urna opcruęao c invocada, todas as suas guardas sao avaliadas cm urna ordem nao cspecificada. Se todas elas forem 
ful.w, o processo invocador c atrasado alć que urna se tornc mit'. Quando e encontruda urna guurdu que ć avaliada 
como lnie, o bloco dc decluruęóes que vem depois dela ć cxecutado. A Figura 8.41 relrutu urn objęto stack com duas 
operaęócs, pusli e pop. 

lima vcz dclinida stack, podem-sc declanir varidveis desse tipo, como em 

s, t: stack; 

que criu dois objetos pilha e inicializu u variavcl top em cadu um deles para 0. A variavel inleiru k pode ser pussa- 
du paru u pilha a pela rieclaraęAo 

s$pu6h(k); 

e assim por dianie. A operaęao />«/> tern urna guurdu, portunto urna tentutivu dc retiror urna variavel de urna pilha 
vu/ia suspendera o processo chuinudor atć que um outro processo lenha passudo ulgumu coisa para u pilha. 

Orca tern umu dcclaruęao łbrk para criar um nuvo processo em mn processador especificado por usuario. O 
novo processo cxeculu u procedimento nomeado na dceluraęao fnrk. Parametros, incluindo objetos, podem ser pus- 
sados ao novo processo, c ć assim quc objetos ficam distribuldos enire mdquinas. For exemplo, u dcclaruęao 

for i in I .. n do fork foobar(s) on i; od; 

geru um novo. processo cm cuda umu das maquinas, de I a n, executando o programu foobar em cuda urna delas. A 
medida quc esses u novos processos (e o pai) executam em paralelo, todos eles poiłem passar ilens para a pilha cornpur- 
lilhada c relirć-los da pilha como se toilos cle estivessem executundo em um multipriKessador de memória compurtilha- 
da. Sustentar a ilusao de memória compartilhada onde cla realmente nao cxiste ć tarcia do sistema de execuęao. 

Operaęoes sobie objetos compartilhados sao atómicus c seqUcncin!nicntc consistenlcs. O sistema garante que, 
se vńrios processos efetuarem opcraęóes no inesmo objęto compartilhado quase simultaneamentc, o sistema esco- 
Ihe algunta ordem e todos os processos vćem a mes ma ordem de eventos. 

Orca integru dados compartilhados e sincronizaęao de um modo que nao estii presente em sistemas DSM busca- 
dos cm paginaęao. Dois lipos de sincronizaęao sSo necessarios em programas paralelos. O primeiro tipo ć sineroni- 
zaęao por exciusao miitua, para evitar que dois processos executem a mesma regiao crftica ao mesmo tempo. Pura 
todos os efeilos, cuda uperuęao sobre um objęto compartilhado em Orca ć como urna regiao crftica, porquc o siste¬ 
ma garante que o rcsulludo finał ć o mesmo que seria se todas as regióes crfticas fossem exccutadas urna por vez, isto 
ć, seqiicncialmcnic. Ncsse aspecto, um objęto Orca ć como umu forma distribufdu de um monitor (Hoare, 1975). 

O outro tipo dc sincrunizaęSo ć sincronizuęao de condiędo, nu quul um processo bloqueia esperando por algu- 
ma condięao valida. Em Orca, u sincronizuęao de condięao ć fcita com guardas. No excinp!o da Figura 8.41, um 
processo que tente relirar um iłem de urna pilha vazia serń suspenso atć que a pilha nao esteja mais vazia. 

O sistema de exccuęAo de Orca manuseia replicaęao, migraęńo e consistćneia de objęto, e invocaę3o de ope- 
raęao. l ada objęto pode estar em um de dois estados: cópia unica ou replicado. Um objęto em estado cópia unica 
existe soi nenie em umu maquina. portanto, todas as requisięóes para ele sao enviadas para essa maquina. Um obję¬ 
to replicado esta presente em todas as miquinas que contćm um processo que o estć usando, o que facilita as opera- 
ęóes de leitura — ja que elas podem ser feitas localmente — A custa de encarecer as atualizaęóes. Quando ć execu- 
tada urna operaęao que modiłicu um objęto replicado, em primeiro lugar ela deve obter um numero de seqUencia 
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Objęci Implementatlon etack; 

top:integer; » armazenamento para a pllha 

stack: array [Integer 0..N-1] ol integer; 

operaęao push(l(em: integer) 

begln 

guard top < N 1 do 
stackflop] := item: 

Figura 8.41 lop:=top + 1; 

oa; 

Objęto pilłta (stackj ORCA end 

simplificado. com dados 

intetnos e duas operaęao pop( ): integor: 

operaęoes be 9 in 

- guard top > 0 do 

top := top 1, 
return stackjtopj; 

od: 

end; 

begln 

top := 0; tt Inlclallzaęflo 

end: 

dado por um processo centralizado que os emite. Entao 6 enviada unia mensageni a cada maquina que tem uma 
cópia do objęto, dizendo a ela que exeeute a operaęao. Uma vez que todas essas atualizaęóes portam numeros de 
seqiiSncia. todas as maquinas executam as operaęoes na mesma ordera, o que garante consisteneia seqtiencial. 

Globe 

A maioria dos sistemas DSM. Linda e Orca executam em sistemas locais. isto 6, dentro de um uhico edilTeio 
ou campus. Todavia. tambćm ć possfvel construir um sistema de memória compartilhada no m'vel de apiicaęiio em 
um multicomputador que executa em fimbito mundial. No sistema Globe, um objęto pode estar localizado no espa 
ęo de endereęo de vdrios pmcessos ao mesmo tempo, possivelnienle em diferentes continentes (Kermarrec et al.. 
1998; Popescu et al., 2002; e Van Sleen et al., 1999). Para acessar os dados de um objęto compartilhado. processos 
usudrios devem passar por seus mćtodos, o que permite que diferentes objetos tenharn diferentes estratćgias de 
implementaęao. Por exemplo, uma opęao ć ter uma uttica cópia dos dados que e requisitada dinamicamente confor- 
nte a necessidade (bom para dados atualizados lreqiientemente por um unico proprietario). Uma outra opęao 6 que 
todos os dados estejam localizados dentro de cada cópia do objęto e as atualizaęóes sejam enviadas a cada cópia 
por um protocolo multicast confiavel, 

O que toma o Globe um tanto ambicioso e sua meta de ser ampliado para um bilhao de usuarios e um trilhno 
de objetos (possivelmente rnóveis). Localizar objetos, gerencia-los e administrar a ampliaęao e crucial. O Globe faz 
isso com uma estrutura geral na qual, mesmo assim, cada objęto pode ter sua própria estrategia de replicaęSo, estra- 
legia de seguranęa e assim por diante. Isso evita o problemu do tamanho tinico presentc em outros sistemas e. ao 
mesmo tempo. eonserva a facilidade de programaęao oferecida pela memória compartilhada. 

Entre outros sistemas distribufdos de longa distancia citatnos Globus (Fostcr c Kcssclman. I998a: e Foster e 
Kesselman. I998b) e Legion (Grimshaw c Wulf, 1996; e Grimshaw e Wulf. 1997), mas esses nao proporcionam a 
ilusao dc memória compartilhada que o Globe proporciona. 

8.4.7 Desempenho 

O pottto principal da construęao de um computador paralelo ć fazer com que elc execute mais rapidamen- 
te do que uma mdquina com um ónico processador. Se ele nao cumprir esse sitnples objetivo, nao vale a pena 
te-lo. Alem disso, ele deve cumprir o objelivo de uma maneira efetiva em relaęao ao custo. Uma mi!quina que 
i duas vczes mais rilpidu do que um uniprocessador a 50 vezes o custo muito provavelmentc nan serii um suces- 
so de vendas. Nesta seęao examinaremos algumas das questóes de desempenho associadas a arquiteturas de 
computadores paralelos. 

Metrica de hardware 

Da perspectiva do hardware, a metrica do desempenho que interessa s3o as velocidades de CPU e E/S e o 
desempenho da redę de interconex3o. As vek»cidades dc CPU e E/S s§o as mesmas de um uniprocessador, portan- 
to os parametros fundamentais de interesse em um sistema paralelo sao os associados com dois itens fundamenlais: 
latóncia e largura dc banda, que agora examinaremos um por vcz. 

A latfinda de ida e volta ć o tempo que leva para a CPU enviar um pacote e obter uma resposta. Se o pacote 
for enviado a uma memória, entao a latencia mede o tempo que leva para ler ou escrever untit palavra ou bloco de 
palavras. Se ele for cmriado a uma outra CPU, a latSncia mede o tempo de comunicaęao entre processadores para 
pacotes daquele tamanho. Usualmenle a latencia que interessa e a de pacotes mfnimos. muitas vezes uma unica pala- 
vra ou uma pequena linha de cache. 


tt funęAo retorna nada 


A passe item para a pillia 
# ineremente o pontairn de pilha 


# tunęao retornando um intelro 

tt suspenda se a pilha estiver vazia 
» decremente o ponteiro de pilha 

# retorne o item do topo 




A laićncia e composta dc varios fatorcs c ć diferenic para in(erconexóes de comutaęao de circuitos, armazena- 
gcm e repassc, alulhu virtual e wormhole roleada. No caso da comutaęao dc circuitos, u laićncia ć a soma do tempo 
de estabelecimcnto com o tempo de trunsmissao. Para estubelecer um circuito ć predso enviar lim pacote dc son- 
dugcm para reservai rccursos e entilo devolver um relalório. Tao logo isso aconteęa, o pacote de dados tern de ser 
montado. Quando o pacote estiver pronto, os hits poiłem tluir a loda velocidade, portanto, se o tempo total de inon- 
tagem tor /'„ o tamunho do pacote /> hits, c a largura de banda b bits/s, a laićncia de urna via ć T, + p/b. Se o cir¬ 
cuito for luli duplex entao nao lid tempo de estabelecimcnto para a resposta, portanto, u laićncia minima para enviur 
um pacote de p bils c obter um resposta de p bits 6 T, + 2 p/b segundos. 

Nu comutaęao de pacotes nao 6 necessdrio enviar antes um pacote de sondagem ao deslino, mas ainda lid 
algunr tempo interno de estahelecimento para montar o pacote, T u . Nesse caso, o tempo de transmissdo de urna viu 
i T a + p/b, mas isso e apenas o tempo de levar o pacote ale o primeiro cumutador. lid um atraso Unito dentro do 
comutador, por cxemplo, T d , e entao o processo ć repetido no comutador seguinte e assini |xir dianie. O atraso Tj 
ć composto do tempo de processamento mais o atraso de fila d espera da liberaęao de urna porta de saida. Se hou- 
ver n comutadores, entao a laićncia total de urna via ć dada pela formula T a + n(p/b + TJ + p/b, cujo termo finał se 
deve a cópiu do ultimo comutador atć o deslino. 

No tnelhor caso, as latćncias de urna via para atalho virtual e roteamento wormhole estao próximas a T„ + p/b 
porque ndo ha nenhum pacote de sondagem para estabelecer um circuito e tambćm nenhum atraso de armazeuamen- 
lo e repassc. Hasicamente, e o tempo inicial de estabelecimcnto para montar o pacote, mais o tempo para empurrar 
os bits porta uforu. Hm lodos os casos i preciso adicionar o atraso de propagando, mas ele e usualmente pei|ueno. 

A oulra metrica de hardware ć a largura de banda. Muilos programas paralelos, cm especial em ciencius natu- 
rais, movimentam urna grandę ipiantidadc de dados de um lado paru outro, potiamo o mimem de bytes/s quc o wa¬ 
lenia pode itimcr ć crilico para o desempenho. Ha viirias mćlricas para largura de banda. Jd vimos urna delas — lar¬ 
gura dc banda de bisseęao. Urna oulra e a largura de bunda agregada, i|ue ć calculada pela simples adiętlo das 
capacidades de lodos os enlaces. Essc numeru da o numeru inaximo de bils quc pudem eslar em trftiKsilo ao mesmo 
tempo. Ainda urna oulra tnćlrica importante e u largura de banda mćdia na saida de cada CPIJ. Se cuda CPU for 
capa/ dc produ/.ir I MB/s, de pouco udianta a intcrconesao ter urna largura de bisseęao de KM) CiB/s. A comunica- 
ęao sera limiluda pela quuntidade de dados que cada CPU pode produzir. 

Na piaticu, conseguir qualqucr coisu quc ao menus chegue perto da largura de handa teónca 6 muito diffcil. 
Muitus fonlcs de sobrecarga conlribuem para reduzir u capacidadc. Por excmplo, ha sempre ulgumu sobrecarga por 
pacote associudu a cada pacote: montar o pacote, construir seu cabeęalho e manda-lo embora. O envio tle 1.024 
pacotes de 4 byles nunca ulcunęard a mesma largura de banda que o envio de um tinico pacote de 4.096 bytes. 
lufelizincnlc, paru conseguir baixas latćncias e melhor usar pacotes menores, visto quc os grandes bloqueiam as 
linlias e comutadores por muito tempo. 

Assim, ha um confiilo inerente entre conseguir baixas latćncias mćdias e alta utilizuęao de largura de banda. 
Para uJgumas apiicaęóes urna delas ć mais importante do que a outra, e para outras apiicaęóes pode ser o contrario. 
Entretanto, vale a pena observar que vocć sempre pode comprar mais largura de banda — instalundo mais fios ou 
lios mais lurgos , mas nao pinie comprar latćncias mais baixas. Por isso, em geral e melhor errar para o lado das 
menores latćncias possfyeis e se preocupar com a largura de banda mais tarde. 

Metrica de software 

A metrica de hardware, como laićncia e largura de bunda observa o que o hardware ć capa/, de Inzer. Conludo, 
os usudrios tćin urna perspectiva diferente. Eles querem saber o ganho de rupide/. na execuę3o dc seus programas em 
um compulador paralelo em vez de em um uniprocessador. Pum eles, a mćtrica fundamenta! e mais yelocidade: quan- 
lo mais rupidumente um progruma executu em um sislemu de n processadores em comparnę&o com um sistema com 
um só processador. Normuhnente os resultados sao tnostrados em grafos como os da Figura K.42. Nesse caso, vcmos 
sarios programas paralelos diferentes que executam cm um mullicomputador que consiste etn 64 CPUs Pentium Pro. 
Cada curva mostra o ganho de velocidaile de um programu com k CPUs como urna funędo de k O ganho de vdoci- 
ilade perlcito ć indicado jiela Imhu (nintilhada na qual usarjt CPUs faz o programa funcionar k vezes mais rapidamen- 
te, pat a qualquer k. Poucos programas conseguent o ganho perfeito de yelocidade. mas alguns chegam perto. O pro- 
blemu dos N-corpos consegue um dtimo parulelismo; o uwuri (um jogo de tahuleiro africano) se sai razoavelmenle 
hem, mus inyerter unia certa mulriz de linhu do horizunte ndo chega u mais do que cinco vezes a yelocidade original, 
ndo ituportando quanlas CPUs cslcjam disponfveis. Os programas e resultados s&o discutidos em Bal et al. (1998). 

Parte ilu ruzao por que o ganho dc yelocidade perfeito e quase imposstvel de alcanęar 6 que quase todos os pro¬ 
gramas tćm algum componente seqiiencial. que costuma ser a fasę de incializaęao, a leitura de dados ou a colela de 
resultados. Nesse caso, nao udianta ter muiłas CPUs. Suponha que um programa exccute por /'segundos em um uni¬ 
processador. sendo que urna fraęao / de seu tempo 6 código seqiiencial e urna fraęao (1 -/) tern potencial para para- 
lelismo, como mostra a Figura 8.43{a). Se esse ultimo código puder executar em « CPUs sem nenhuma sobrecarga, 
seu tempo de execuęiio pode ser reduzido de (I - f)T para (1 - j)T/n nu melhor das hipóteses, como mostra a Figura 
8.43(h). Isso da um tempo de execuęao total para us partes seqiicncial e paralela de fT + (I - f) T/n. O aumento de 
yelocidade ć apenas o tempo de execuę3o do programa original, T, diyidido pelo novo tempo de execuę3o: 

n 

! + («- II/ - 


Alimenta de veloddade = 
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Figura 8.42 

Programas reals alcanęam 
menos do que o aumento 
perfeito de veloddade 
indicado pela linha 
pontilhada._ 



Figura 8 43 

(a) Um programa tem uma 
parte sequencial e uma 
parte que pode utilizar 
paralelismo. 

|b] Efeito da execuęSo de 
parte do programa em 
paralelo._ 


Para/ = 0 pwlcmos obter aumento dc ve!ocidade lincar, mas para/> 0 o aumento de velocidade perfeito niSo 
ć possfvel por causa do contponente seqilencial. Esse resultado ć conhecido como lei de Amdahl. 

A lei de Amdahl nSo i a dnica razao por que o aumento perfeito de velocidade ć quase impossfvel de conse- 
guir. Lalencias de comunicaęao nao-zero, larguras de bandas de comunicaę3o linitas c ineficićncias dc algoritmos 
lambćm podem dcscmpcnhar um papci. Alćnt disso, mesmo que homesse mil CPUs disponfvcis. nem todos os pro¬ 
gramas podem ser escritos para fazer uso de tanlas CPUs e a sobrecarga para inicializar todas pode ser significali- 
va. Ademais, niuitas vezes o algoritmo ntais conhecido nao i bom para ser usado cm uma mńquina paralela, por- 
lanto ć preciso usar um algoritmo suhótimo no caso paralelo. Isso posto, hń niuitas aplicayóes para as quais seria 
muito descjdvcl que o programa executas.se com velocidade n vezes maior. ainda (|ue para isso precisasse tle 2ii 
CPUs. Afinal, CPUs nilo s3o caras, e muitas empresas vivcm com consideravclmcntc menos do que 100'f dc efi- 
t iencia em outras partes dc seus negócios. 

Obtenęao de alto desempenłio 

O modo mais dircto de melhorar o desempenho 6 adicionar mais CPUs ao sistema. Contudo, essa adiędo deve 
ser fcita dc um modo tal que cvite a criaęSo de gargalos. Um sistema no qual se pode adicionar mais CPUs e obter 
mais capacidade dc computaęSo correspondente ć denominado escalavel. 

Para ver algumas itnplicaęftes da escalabilidadc. considere qualro CPUs conectadas por um barramento, como 
ilustrado na Figura 8.44(a). Agora imaginc ampliar esse sistema para 16 CPUs adicionando mais 12. como mostra 
a Figura 8.44(b). Se a largura de banda do barramento for h MB/s, entao, com a quadruplicaęSo do nuniero de CPUs. 
tarnbem reduzimos a disptrnibilidade de largura de banda por CPU de h/4 MB/s para h /\6 MB/s. Esse 6 um siste 
ma nao escalavel. 


n CPUs attvas 



Figura 8.44 

|a| Sistema de 4 CPUs com 
um banamento 

(b) Sistema de 16 CPUs 
com um barramento. 

(c) Sistema de 4 CPUs em 
grade 

|d) Sistema de 16 CPUs 
em grade 
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Agora vumos Inzer u mesrna coisa eom um sistema em grade, como inoslra a Figura 8.44(c) e a Figura 8.44(d). 
Cum essa topologia, adicionur novas CPUs tambem adiciona novos enlaces, portanto ampliar o sistema nao provo- 
ca a quedu da larguru de banda agregada por CPU, como acontece com um barramento. Na verdade, a raz a o entre 
enlaces e CPUs aumenta de 1,0 com 4 CPUs (4 CPUs, 4 enlaces) para 1,5 com 16 CPUs (16 CPUs, 24 enlaces), 
portanto agregar CPUs melhora a largura de banda agregada por CPU. 

Claro que a larguru de bunda nao e a iinica questao. Adicionar CPUs ao barramento nao aumenta o diame- 
tro da rede de interconexfio nem u latćncia na ausencia de trdfego, ao passo quc adiciona-las i) grade, aumenta. 
Paru urna grade n X //, o diametro e 2(n 1), portanto, na piór das hipóteses (e na mćdia), a latćncia aumenta 

aproximadumente pela raiz quudrada do numeru de CPUs. Para 400 CPUs, o diametro ć 38, ao passo que para 
1.600 CPUs ć 78, portanto quudruplicar o mimem de CPUs uproximadamcnte dobra o diametro e, por isso, a 
latćncia media. 

O ideał seria que um sistema escaMvel mantivesse a mesma largura de banda media por CPU e urna lalen- 
cia media consluntc a medidu quc fossem adicionudas mais e mais CPUs. Contudo, na prdtica, e vidvel manier 
sullciente largura de banda por CPU, mas, em todos os projetos praticos, a latćncia aumenta cotn o tamanho. 
Fa/.cr com que ela aumente por loguritmo, como em um hipercubo, ć quase o melhor que se pode fazer. 

O problemu do uumento da latćncia h medida que o sistema e ampliado, e que a latćncia costmna ser falal 
pata o desempenho em aplicaęóes de granulaęao lina e media. Se um programu precisar de dados que nao estao 
em sita memória locul, muitas vez.es ha urna dernora substancial para ir busca-los e, quanto maior o sistema, mais 
longo e o atraso, como acabamos de ver, Esse problemu ć vdlido para multiproeessadores, bem como para mulli- 
computadores, ja que, em ambos os casos, a memória lisica 6 invariavelmcnte subdividida cm módulos extensos. 

( orno conseqiiencia dessa-ohsemęao, projetistas de sistemas muitas vezes fa/em grandes esforęos para redu- 
zir, ou ao menos ocultar, a latćncia, usando diversas tecnicas que mencionaremos ugoru. A primeiru tecnica para 
ocultar u latćncia e u replieaęau de dados. Se for possivel manter cópias dc um bloco dc dados cm vdrias localiza- 
ęócs, a velocidade dos acessos a partir dcssas localizaęóes pode ser aumentada. lima dessas tćcnicas de replicuęao 
e Inzer cuchę, nu quul urna ou mais cópias de bloeos de dados sao mantidas próximas de onde estao sendo usudas, 
bem como no lugar a quc elus 'pertenccm'. Contudo, urna outru estrutegiu e manter vdrias cópias pares — cópius 
que tern o mesmo status — cm comparaęao com o relacionamento assimćtrico primdria/secundaria usado em cache. 
Quundo s3o mantidas varias cópius, nao imporlando dc quc forma, as qucs(ńes fundamenluis sao: onde s3o coloca- 
dos os bloeos dc dados, quundo c por qucm. As respostas vao de posicionamenlo dinamico soh demunda pelo hard¬ 
ware a posicionamenlo intencionul na hora do currcgumcnto seguindo diretivas do cotupiludor. Em todos os casos, 
gcrcnciar u consistćnciu ć urna qucstao. 

I Ima segunda tecnica para ocultar latencias e a busca anlecipada. Se um item de dado puder ser buscudo antes 
de ser necessńriu, o proccsso de busca pode ser sobreposto a execuęao normal, dc modo que, quando o ilctn for 
neccssario, cle jd esi.ua la. A busca anlecipada pode ser automdtica ou sob controle de programu. Quando urna cache 
curregu udo upenus a palavra que es Id sendo rcferenciada, mas urna linhu de cache inteira que ctunern a paluvru, 
pode-se upostar quc as paluvras sucessivas tambem logo serdo necessdrius. 

A busca anlecipada pode ser controlada explicitamenle. Quando o compilador percebe que precisard de 
alguns dados, pode inserir urna instruęao expl(cita para buscd-los e colocar aquela instruędo com antecedćncia 
sullciente para quc os dados eslejam onde necessario a tempu. Essa estratćgia requer que o compilador tenha um 
conhecimento complelo da maquina subjacente e de sua lemporizaęao, bem como controle sobie o local omie 
todos os dados sao coloeados. Essas iustruęóes LOAD especulativas funcionam melhor quando se sabe com certe- 
za que os dados serao necessarios. Obter urna falta de pdgina com urna LOAD para um caminho que, afinal, nao e 
tornado, ć muito custoso. 

Urna lerceira tecnica que pode ocultar latćncia e a multithreading, como jd vimos. Se a mudanęa entre pro- 
cessos puder ser feita com suficiente rapidez, por exemplo, dando a cada um seu próprio mapa dc memória e seus 
próprios registrudores de hardware, entao, quando um thread bloąueia por estar esperando a cheguda de dados 
rcmotos, o hardware pode rapidamente mudar para um outro que pode continuar. No caso-limite, a CPU executn 
a primeira instruęao do thread um, a segunda inslritędo do threud dois e assim por diante. Desse modo pode-se 
manter a ('PU ocupuda, mesmo em face de longas latencias de memória para os threads individuais. 

Urna quartu tćcnica para ocultar latćncia e usar escrilas sem bloqueio. Normalnienie, quando 6 executada uma 
instruęao STORĘ, u CPU espera atć que a STORĘ tenha concluido antes de continuar. Com cscritas sem bloąueio, 
u operaęSo de memória ć iniciuda, mas o programu continua assim mesmo. E diftcil continuar passando por umu 
LOAU, mas com exccuęao fora de ordem atć isso ć possfvel. 

8.5 Computaęao em grade 

Muilos dos desalios atuais na ciencia, engenharia, indilstria, meio ambiente e outras drcas sao de grandę esca- 
la e inlcrdisciplinarcs. Resolvć-los requcr a experićnciu, as habilidades, conhecimenlos, instaluęóes, softwares e 
dados de iniilliplus orgunizuęóes e, muitas vezes, em pafses diferentes. Alguns exemplos s3o os seguinlcs: 

1. Cientistas que estao desenvolvendo uma missao para Martę. 

2 . Um consórcio para construir um produto contplexo — por exemplo, uma barragem ou uma aeronave. 

3. Uma equipe de socorro intemacional para coordenar o auxflio prestado após um desastre nutural. 
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Algunias dessas cooperaęócs sito de longo praw. outras de prazos mais curtos. mas lodas compartilham o fiu 
condutor coinuin que ć conscguir quc organizaęóes individuais. coin seus próprios rccursos c pincedimcntos, traba- 
Ihcm juntas para atingir urna meta comum. 

Atć ha pouco tempo, conseguir que organizaęóes di Terentes, com sistemas operacionais de computador, ban 
cos dc dados e protocolos diferentcs. traballiassem juntas era muito diffcil. Contudo, a cresccnte necessidade de coo- 
pcraęSo interorganizacional de larga escala levou ao desenvolvimento de sistemas c tecnologia para conectar eom- 
putadores muito distantcs uns dos outros no que 6 denominado grade. Etn certo sentido, a grade ć a etapa segtiinle 
ao longo do eixo da Figura 8.1. Ela pode ser considerada como um clustcr muito grandę, internacjonał, fracamcn- 
te acoplado e heterogfinco. 

O objetivo da grade i proporcionar infra-estnitura tćcnica para permilir que um grupo de organizaęóes que 
compartilham urna mesma meta formę urna organiznęao virtual. Essa organizaęan virtual tem dc ser flexfvel, com 
um quadro de assoeiados grandę c mutasel. permitindo quc seus membros t raba litem juntos em (trcas que considc- 
rant apropriadas e. ao mcsmo tempo, permitindo que eles ntantenham controle sobre seus próprios rccursos cm 
qualquer grau que desejarem. Com essa finalidade. pesquisadores dc grade estflo dcscnvolvendo scrvięos, ferramen- 
tas e protocolos pani hahilitar o funcionamento dessas organizaęóes virtuais. 

A grade 6 inerentemente multilateral. com muitos participantes quc tóm o mcsmo status. Ela pode ser con- 
trastada com estruturas dc computaęSo cxistentes. No modclo cliente-servidor, urna Iransaęilo envolve duas par¬ 
łeś: o scrvidor, quc ofcrece algum servięo, c o cliente, que quer usar o servięo. Um cxcmplo tfpico de modelo 
clicnte-servidor 6 a Web. na qual usudrios se dirigem a servidores Web para achar informaęóes. A grade tatn- 
bćtn ć diferenle de aplicnęóes peer-to-peer, na quais pares de indivfduos trocunt arquivos. O e mail 6 um cxem- 
plo coitium de urna aplicaęiio peer-to-peer. Por ser diTerentc desses modelos. a graile requer novos protocolos c 
tecnologia. 

A grade precisa ter aces&o a urna ampla variedade de recursos. Cada recurso tent um sistetna especffico e urna 
organizaęao ao qual pertcncc e que decidc quanto desse recurso disponibilizard para a grade. em que bordrios e para 
quem. Em um sentido abstrato. a grade se trata de acesso c gerenciamento de recursos. 

Um modo de modelar a grade <5 a hierarquia em camadas da Tabela 8.6. A cantada-base na parte mais baixa e o 
conjunto de componentes com o qual a grade ć constndda. Inclui CPUs, discos, redes c sensores do lado do hardwa¬ 
re, e programas c dados do lado do software. Esses sao os recursos que a grade disponibiliza de um modo controlado. 

F.tn um nivel acima estd a camada de recursos. que se preocupa com o gerenciamento de recursos individuaix. 
Hm muitos casos, um recurso que participa de urna grade tem um processo local que gerencia esse recurso e permi- 
te acesso controlado a ele por usudrios remotos. Essa camada proporciona urna intcrfacc unifomte ptira que cama¬ 
das mais altas possani inquirir as caracteristicas e status de recursos individuais. monitorando esses recursos e tis 
ulilizando de modo seguro. 

Em seguida vcm a camada cnlctiva. que manuscia grupos dc rccursos. Urna de suas funęóes e a-descoberta 
de recursos. pcla qual um usudrio pode localizar ciclos de CPU disponfveis. espaęo cm disco on dados espedfteos. 
A camada coletiva pode manier diretńrios ou outros bancos dc dados para fomecer cssas infnnnaęócs. Tambćnt 
pode ofercccr um scrvięo dc correlagcm. pelo qual os provcdores e usudrios dc sendęos sdo compalibilizados, pos- 
sivelmcntc proporcionando a alocaędo dc rccursos escassos entre usudrios concorrentes. A camada coletiva tambćtn 
ć responsdvel por rcplicar dados. gercnciar a admissito de novos membros e recursos & grade. pela contabilidade c 
pcla manutenędo das polfticas de bancos de dados sobre qucni pode usar o que. 

Ainda mais acima esld n camada de aplicaęao. onde residetn as aplicaęócs usudrias. lila osa as camadas mais 
baixas para adquirir credcnciais que provam scu direito dc usar cert os recursos. apresentar rcquisięóes dc utiliza 
ędo. monitorar o andamento dessas requisięóes. lidar com falhas e notificar o usudrio dos resullados. 

Seguranęa ć fundaniental para urna grade beni-sucedida. Os proprietarios dos recursos quase sernpre insistem 
cm manter rfgido controle sobre seus rccursos e qucrem determinar quem vai usd-los, por quanto tempo, e quanto. 
Sem boa seguranęa. nenliuma organizaęao disponibilizaria seus recursos d grade. Por outro lado, sc um usudrio 
fosse obrigado u ter urna canta de login e urna scnlia para lodo computador que quiscsse usar. a utilizaęao da grade 
seria insuportavelmenle trabalhosa. Por conseqil€ncia, a grade teve de desenvolver um modelo de seguranęa para 
tratar dessas preocupaęflcs. 


Tabela 8.6 Camadas da grade. 


I Funęao 

Camada | 

Aplicaęao 

Aplicaęóes que compartilham recursos gerenciados de 
modos conUolados 

Colotwa 

Descoberta. conetagem. monitoraędo e controle de 
grupos de recursos 

De teounios 

Acesso seguro o gerenctado a recursos lndlvlduols 

Base 

Recursos flsicos: computadores, armazenamento. 
redeś. sensores. programas e dados 







Dniu das principais caracierfsticas do modelu de scguranęa e a assinatura unica. A primcira etapa para um 
usudrio uli li/ar u grade e ser aulenlicado e adquirir unia credenciul, um documcnio assinado digital menie que espe- 
eifica em nonie de quem o trabulho devc ser reali/.ado. Credenciais pudem ser delegadas, de modo que, quando unia 
computaędo precisa criar subcomputaęóes, os proccssos-lllhos lambem pudem ser idenlificados. Quando urna cre- 
dencial e apresenlada a unia mdquina rernota, ela leni de ser mapcada para o meeanismo local de scguranęa. Em 
sislemas I.N1X, por cxcmplo, usuarios sao idenlificados por IDs de usuarios de 16 bits, mas oulros sistemas Idm 
outros esqucmas. Por lim, a grade precisa de mecanismos para pemiilir que polflicas de acesso sejam declaradas, 
inantidas e aluali/adas. 

Paru proporcionar inleroperabilidadc entre diferenles organizaęfics c mdquinus sao necessiirios padróes, tanio 
em (ernios dos scrvięos olcrccidos, quanto dos prolocolos usadus para ucessd-los. A comunidade das grades criou 
unia orgunizuęuu, a Global Grade forum, para gercnciur o processo de pudroni/uęao. Ela criou unia esirutura deno- 
minada OGSA (Open Grade Services Arcliitcclurc arquiletura de senięos de grade aberla) para posicio- 
nar os varios padróes e seu desenvolvimenlo. Semprc que poss(vel, os padróes utili/ain padróes jd exislentes, por 
exemplo, o W SDL l Web Services Dcfinilnn Language), para descrever servięos OGSA. Os servięos que estao atual- 
rnente em fasę de padronizaęiSo pertcncem a oito categorias gerais, como descrevemos a seguir, mas novas calego- 
rias senlo criadas mais larde. 

1. Senięos dc infra-esirutura (habilitar coinunicaędo eulre recursos). 

2 . Senięos dc gerenciamenlo dc recursos (reserva e distribuięao de recursos). 

3. Senięos dc dados (mover e replicar dados para onde forem necessdrios). 

4. Senięos dc contcMo (descrcvcr recursos requeridos e polflicas de utilizaęao). 

s. Senięos de inloniiuęao (obter infumiaęócs sobrc disponibilidade de recursos). 

6. Senięos dc aulogerenciamenlo (suportar uina qualidade de servięo declarada). 

7. .Senięos de scguranęa (impor polflicas de scguranęa). 

8. Servięos dc gerenciamenlo de execuę3o (gerenciar fluxo de irahalho). 

Ila niuilo uiuis que poderia ser dilo sobrc a grade, mus limitaęócs de espaęo nos impedem de estender mais 
esse tópico Sc o leilor quiscr mais informuęócs sobie u grade, pode consultur Berman et al., 2003; Posler e 
Kcssclmuu. 2003; e Posler el ul., 2002. 

8.6 Resumo 

f.stś licando cadu vez mais diffcil conseguir que os compuiadores funcionem com mais rapidez apenas aumen- 
lando a vclocidude dc relógio por causa de problenias com a maior dissipaęao de calor e oulros faiores. Em vez 
disso, os projeiistus estao buscando o paralelisino para conseguir ganhos de velocidudc. O paralelisiuo pode ser 
iniroduzido em inuilos nfveis diferenles, desde o niuilo buixo, onde os elementos de processamento sao niuilo for 
lenienie acoplados, atć o muilo alto, onde eles sao inuito fracamente ucoplados. 

No nfvel baixo eslii o paralelisino no chip, no qual atividades paralelas ocorrem em um unito chip. Urna fonna 
de paralelisino no chip e o paralelisino no nfvel da insiruęSo, no quul unia inslmę3o, ou unia seqU6ncia de inslru- 
ęóes, emile mulliplas operaęóes que podem ser execuiadas em paralelo por diferenles unidades funcionais. Urna 
segunda forma ile paralelisino no chip ć o multithreading, no qual a CPU pode comutar como quiser entre mulli- 
plos (lireads, insiruęao por instruędo, criando um inulliprocessador virtual. Urna lerceira forma de paralelisino no 
chip ć o mulliproccssador de chip unico no qual dois ou mais niicleos sdo colocados no mesmo chip para permitir 
que eles execulem uo niesmo tempo. 

Km um nfvel acima encontramos os co-processadores, normalnienie placas de expansao que agregam capaci 
dade de processamenio exiru em alguma area especializada tal como processainento de prolocolos de rede ou mul- 
limidia. Esses processadores cxtras uliviam o irahalho da CPU principal, permitindo que ela faęa oulras coisas 
cnquanto eles estao rcali/ando suas tarefas especiali/adas. 

No próximo nfvel encontramos os muliiprocessadores de memóriu compartilhada. Os sistemas contćm 
duas ou mais CPUs tolalmente desenvolvidas que compartilhum urna niemória em comuin. Muliiprocessadores 
UMA se comunicam via urn barramento compariilhado (de escuta), um comutador crossbar ou urnu rede dc 
comutuęao mulliesiiigios. Eles sao caracterizados por terem um tempo de accsso uniforme a todas as localiza 
ęóes de memóriu. Pot comparaęao, muliiprocessadores NUMA tamWm apresentam todos os processos com o 
mesmo espaęo dc endereęo compariilhado, mas, nesse caso, os acessos remolos levam um tempo bein mais 
longo do quc os locais. Por filii, muliiprocessadores COMA sao mais urna variaęao na qual linlius de cachc s3o 
movidas de um lado para oułro da nukjuina sob dcmanda, mas nao tćm unia residćncia real como em oulros 
projelos. 

Mullicomputadores s;lo sislemas com muitas CPUs que nao compartilham urna memória em comum. Cada 
urna lem sua propria memória privadu, com comunicaęSo por troca de mensagens. MPPs sao muliicoinpuladorcs 
grandes com redes de coinunicaędo especializadas como o BlueGene/L da IBM. Clusters sdo sislemas mais simples 
que usain componenles de prateleira, como o sislema que sustenta o Google. 

Mullicomputadores costuniam ser programados usando um pacote de Iroca de mensagens como MPI. Unia 
abotdagem altcrnaliva i usar memória comparlilhadu no nfvel ile aplicaędo como um sislema DSM baseado cm 
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pńginas, o espaęo de tuplas Linda, ou ohjctos Orca ou Globe. DSM simula mcmória compartilhada no nfvel de piigi 
na. o que o loma similar a um mdquina NUMA, exceto pela penalidadc maior para referOneias rernotas. 

Por firn, no nfvel mais alto e mais fracaniente acoplado, estao as grades. Sao sistepias nos cjnnis organizaęOes inlci 
ras s3o reunidas e interligadas pela Internet para conipartilharcapacidade de processaniento. dados c outros recursos. 


Problemas 

1. InstruęOes Pentium pudem ter comprimentos dc atć 17 bytcs. O Pentium ć urna CPU VLIW? 

2. Quuis s8o os valores grantpcados de 96. -9, 300 e 256 quando a lai.sa dc graui|)camcnlo e 0-255? 

3. As scguintcs inslruęOes TriMedia sao permilidas? Se n8o forem, qual a razio? 

n. Adięiio de inlciros, sublraęao de inteiros. targ a, adięiio dc ponto flutuantc. carga imediata. 

b. SubtraęSo de inteiros. multiplicaęao de inteiros. carga imediata. deslocamento. deslocamenlo. 

c. Carga imediata, adięiio dc ponto flutuantc, multiplicaęao dc ponto flutuantc. des\io. carga imediata. 

4. A Figura 8.5(d) e (e) mostra 12 ciclos dc inslruęOes. Para cada um, diga o que acontccc nos trOs ciclos seguintcs. 

5. Em unia dclcrminada CPU. urna instruęSo que enconlra urna ausCncin da cache dc nfvel I, mas urna prescnęa 
na cache de nfvel 2. Icva k ciclos no total. Sc for usado mullithreading para mascarar ausSncias da cachc dc 
nfvel 1. quantos thrcads prccisam ser cxccutados ao mesmo tempo usando mullithreading dc granulaęfio filia 
para cvitar ciclos ociosos? 

6. Uma bela manha, a ahelha-rainha de certa colmćia convoca todas as suas abelhas-opcrairias e Ihes comunica 
quc a tarefa daquelc dia ć colher nectar de rosas. Entao as operdrias saem voando etn busca de rosas. lisse ć 
um sisteina S1MD ou um sislema M1MD? 

7. Durantc nossa discussao sobre consislencia de mcmória dissemos que um modelu dc eonsistencia ć um lipo 
dc contrnto entre o software e a memória. Por quc tal contrato ć nccessśrio? 

8. Considcre um mulliproccssador quc usa um banumento compaililbado. O que acontccc sc dois processadorcs 
tentarem accssar a memória global cxatamcnic no mesmo instante? 

9. Suponha que, por razócs tćcnicas, uma cachc de cscuta só pode escutar linhas dc endereęo, e n8o linhas dc 
dados. Essa alteraęiio afetaria o protocolo de escrita direta? 

10. Como um modelu simples de um sistema multiprocessador cum barramento, sem cache. suponha que uma ins- 
IruęSo em cada quatm referencja a memória. e que uma rcfcrdncia 8 mcmória ocupa o baiTamento durantc um 
tempo dc instruęao intciro. Se o barramento estivcr ocupado, a CPU requisitante ć colocada em uma fila F1FO. 
Qual serd a diferenęn entre a velocidadc dc ejtecuęio dc um sislema com 64 CPUs c um sistema com uma CPU? 

11. O protocolo de coerCncia de cache MESI tern quatro estados. Outros protocolos de cocrćncia dc cache de escri¬ 
ta relroaliva tern soinente trćs estados. Qual dos qualro estados MHSI poderia ser sacrificado e quais seriam as 
conseqll@ncias de cada escolha? Sc vocS tivesse dc cscolher apenas trćs estados, quais escolhcria? 

12. Usando o protocolo de coerdncia de cache MESI. hd alguma situaęao na qual uma linha ile cache estd presen- 
tc na cachc local mas para a qual ainda assim ć nccessaria uma transaęao de barramento? Caso a resposta seja 
positiva. cxplique. 

13. Suponha que hd ii CPUs em um barramento comum. A probabilidade de qualqucr uma das CPUs tenlnr usar 
o barramento em um dado ciclo i p. Qual ć a chance de: 

a. o barramento eslar ociosu (0 requisięocs)7 

b. ser fcila cxatamentc uma requisięao? 

c. ser feita mais de uma rcquisiędo? 

14. Ouantos coinutadores crossbar tem um Sun F7re E25K completo? 

15. Suponha que o fiu entre o comutador 2A e o comutador 3B na redc Omega 4 sc mmpa. Quem ć desconcctudo 
dc quem? 

16. Hot spots (localizaęocs de memória quc recebem grandes quantidadcs dc referencias) s5o claramente um grandę 
problcma em redes dc comutaęao multiestagio. Tambdm sdo um problenta cm sistemas bascados em banumento? 

17. Urna rede dc coinutaęiio Omega conccta 4.096 CPUs RISC*, cada qual com um tempo dc ciclo de 60 ns. a 4.096 
módulos de memória infinitamente rdpidos. Cada um dos clementos de comutaęao tern um atraso dc 5 ns. 
Quantos compartiincntos de atraso sao necessarios para uma instruęao LOAD? 

18. Considere uma miiquina que usa uma redc dc comutaęSo Omega, como a mostrada na Figura 8.25. Suponha 
i|ue o programa e a pillia para o processador i sejam mantidos no módulo de memória /. Proponha uma ligci- 
ra altcraęao na topologia que faęa uma grandę difcrcnęa no desempenho (o IBM RP3 e o BBN Bullerfly usam 
cssa to|xilogia modificada). Qual e a desvantagem dessa sua nova topologia em compamęilo com a original? 
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19. I m um mulliprocessador NUMA, referćncias ii mcmdria local levam 20 ns e referćncias remotas levam 120 
ns. lim certo programa faz um tolal tle N referćncias a inemória duranlc sua execu^an, das tjuais 1% sflo para 
urna paginu /’. No imcio e.ssu pdgina e remota, e copia-la localmente levu C ns. Soh quais condięńcs a pdgina 
deveria ser copiada localmente nu ausćncia de utilizaęSo signiftcativa por outros processudores? 

20. Considcre um multiprocessador CC-NUMA como o da Figura 8.27, porem com 512 nós de 8 MB cada. Se as 
linhas dc cache tern 64 byies, qual o a porcentagem dc sobrecargu para os diretórios? Aumentar o numcro de 
mis uumentu a sobrecargu, reduz a sobrecargu ou nao provoca nenhutna alleraędo? 

21. Calcule o diamctro da rede para cada topologia mostrada na Figura 8.31. 

22. Fara cuda topologia mostrada na Figura 8.31 determinc o gran de tolerancia a lali ta. definida como o mimem 
nttUimo de enlaces que poiłem ser perdidos sem repartir a rede cm duus. 

23. Considcre a topologia de toro dupin da Figura 8.31(0. mas espandida paru um tamanho k x k. Qual e o dia- 
melro da rede'.' t Dica: considcre k irnpar e k par separadutnente.) 

24. lima rede de miereonesao tern a forma de um cubo 8X8X8. Cada cnlace tein urna lurgura tle bandu luli 
duplex ile I GB/s. Qual i a lurgura de bunda de bisseęfio da rede? 

25. A lei de Anulaltl limitu o uumento potenciul de velocidude quc se pode conseguir cm um computador parale¬ 
lo. Calcule, como urna funęan de/, o uumento maxitnn de vclociiladc possivel quandn o ntimero de CFUs se 
uproKimar de infinito. Quais sao as implicuębes desse limite para/=0,1? 

26. A Figura 8.44 tnoslra como a ampliaędo fulha com um barramcnto mus e bem-sucedida com urna grade. 
Considerando que cuda barramento ou enlace tern urna lurgura de bandu b, calcule a lurgura dc humla miidiu 
por CPU pata cada um dos qmitro casos. Entao amplie cuda sistema para 64 CFUs e rcpitu os calculos. Onal 
e o limite ń medida que o ntimero de CPUs tcnde ao infinito? 

27. No lextn forum discutidus tres variaęoes de send: sincrona, com bloqueio e sem bloqueio. Cite um quarto meto 
do que seju stmilur a send com bloqueio, mas lenha propriedades ligeirumente diferentes. Cite urna vantagein 
e urna desvuutugem de seu mćtodo ent cotnpurayao com u send com bloqueio. 

28. Considcre um multicomputador que estri executando em urna rede com hurdware de broudcusting. tal como u 
Ethernet. Por que e importante a razao entre o|ieraęóes de leitura — as quc nao atuuli/.um o estado interno das 
variaveis — e operaęóes dc escrita — as que atualizam o estado interno das variavcis? 
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Nos oito capftulos preccdentes forum disculidos mułtos tópicos com vdrios graus de detalhe. Hste capftulo pretende auxi- 
liar os leitores interessados ein se aprofundar no estudo da organizaęao de computadores. A Seęfio 9.1 contćm unia lista de lei- 
turas sugeridas organ i zada por capftulos. A Seę3o 9.2 6 urna bibliografia eni ordem alfabetica de todos os livros e artigos cita- 
dos neste livro. 

9.1 Sugestóes para leituras complementares 

A seguir apresentamos algumas leituras dirigidas explicitamente a cada capftulo. A maioria 6 composta ile livros didati 
cos, tutoriais ou artigos de visao geral. 

9.1.1 Introduęao e obras gerais 

Borkar. "Getting Gigascale Chips” 

A lei dc Moore provavelniente valera por no nifnimo mais uma dćcada, o que potencialmenle levarć a chips com um 
bilhSo de transistores. Esses chips propOem desafios e oferecem oportunidadcs. Nesse artigo. um dos principais pesquisadores 
da Intel discute futuros desafios, como dissipaęao dc energia, rcsistćncia e capacitSncia mais alias de fios cada vez mcnores e 
mais próximos um do outro e assim por diante. Ele acha que o futuro cstd eni multilhreading, multiproccssadores em um tlnico 
chip c melhores estruturas de memória, em vez de apcnas maiores velocidades dc relógio. 

Colwell, The Pentium Cliranicles 

Robert Colwell foi o Ifder da equipe que projetou o Pentium. Nesse livro ele fala sobre as pessoas. a paixao e a polftica 
por trds desse chip. 

Hamacher et al.. Computer organization, 5 a etiięao. 

Um tradicional livro didatico sobre organizaęao de computadores. CPU, memória. E/S. aritmćlica e perifćricos. Os prin¬ 
cipais cxemplos s3o o 68000 e o PowerPC. 

Healh, Emhedded Systems design. 

Moje em dia, praticamcnte tudo o que funciona com elctricidade e custa mais do que 50 dólares tem um computador incor- 
porado. Esses sistemas embutidos sao o tópico desse livro. O texlo coincęa com o bdsico de processadores ernbutidos, memória 
e perifćricos, passando para interface, sistemas operacionais de tempo real, software e depuraęao. 

Hennessy e Patterson, Computer architecture: a quantitative approach , .1° edięiio. 

Esse livro diddtico, dirigido 3 pós-graduaęao, entra em grandes detalhes sobre como projetar um processador c sua nienió- 
ria. A ćnfase esta na obtenęao dc alto desempenho, em espccial pela exploraęao de paralclismo e pipelining. Se quiser saber 
tudo sobre projeto de CPU de ultima geraęao, esse 6 o livro quc voc6 devc consultar. 

Nuli e Lobur, The essentials of Computer organization and architecture. 

Um outro livro didatico sobre organizaęilo de computadores que abrange inuitos dos mesmos tópicos deste livro, porem 
coni menos profundidade. 

Patterson e Hennessy, Computer organization and design.edięiio. 

A 3 a edięao, que dcixa de ter as mil pfiginas da 2®edię3o, transferiu grandę parte do texto ao CD-ROM que a acompanha. 
O materiał restante no livro abrange muitos aspectos da arquitctura de computadores, incluindo aritmćtica. desempenho. o 
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caminho ile dados, paraleiismo, niemórias, perifćricos e cluslers. Emboru o Pentium 4 seju discutido eni diversas 
partes, o principal exemplo para explicar os eonceilos <5 o processador MIPS, projetado por Hennessy e a primeira 
mdquina RISC comercial, lanęada eni 1985. 

Pricc, “A bisiory of culculating machines”. 

Emboru computadores ntodernos tcnharn comeęado com Babbage no sćculo XIX, os seres humanos tern 1'eito 
calculos desdc a autora da civilizaędo. Esse fascinante artigo ilustrado truęa um quadro da hislória da contagem, da 
mateiudlica, culendarios e calculos desde 3U0U a.C. ate o inicio do sćculo XX. 

Slater, Porlmitu in Silicon. 

Por que Dennis Rilchie nao entregou sua lese de doutorado em Hurvard? Por que Steve Jobs lomou-se vege- 
tariano? As resposlas estao nesse livro fascinante que contćin biogralias curtas de 34 pessoas que moldaram a indus- 
tria de computadores. de Charles Babbage a Donald Knuth. 

Stallings. Compulei orgunizathm and architecture, ń“ ediędo. 

Um teslo geral sohre arquitetura de computadores. Alguns dos tópicos tratados neste livro tumbom sao abor- 
dados no livro de Stallings. 

Wilkes, “(.‘ompulers Iben and now". 

llnui história pessoal de computadores desde 1946 ató 1968 pelo pioneiro projetislu de computadores e iiwcntor 
da microprognunaęao. Maurice Wilkes. Ele narra as primeiras batalhas entre os "cadetes do espaęo”, que acreditavam 
na programaędn autoradtica (prć-compiladores FORTRAN), e os tradiciuuulistas, que preferiam fazer sua programu 
ęao cm oclal. 

9.1.2 Organizaęao de sistemas de computaęao 

Buchanan e Wilson, Advanced PC archilecture. 

Apesar de um pouco desordcnado, cssc livro abrange urna grandę arca referenta a processadores, bamimentos 
(PCI, SCSI e IJSB). portas (jogos, paralela e serial) c outros componentes. 

Ng. “Advanccs in dtsk technology: performance issues”. 

Md quem venha prevendo o firn dos discos magnćlicos ha no nunimo 20 anos c, mesmo assim. eles ainda estao 
presentes Segundo esse urtigo, sua tecnologia estd progredindo com muita rupidez, entao provavelmente continua- 
rao sendo usudos ainda por ntuilos anos. 

Messmer, The indispensable PC hardware baok, */ u ediędo. 

Com 1 2 96 pdginas (dioididas em 37 capilulos e 7 apendices), esse livro talvez nao seja indispensavel, mas com 
certe/a e yolumoso Praticumenle tudo o que hu para saber sobre processadorcs 80x86. niemórias, bamimentos e 
perifericos estd aqui com todos os delalhes estarrecedores. Se voce leu c digeriu o livro dc Norton e Goodman cila- 
do abatxo e quiser passar para o próximo n(vel de detalhc tćcnico, esle e um bom comeęo. 

Norton e Goodman, hnide ihe PC, lf cdięao. 

A maioriu dos livros sobre hardware de PCs ć escrita para quem ć fonnado em Engenharia Eletrica, falo que 
gera um grau de dificuldade de leitura para quem trabalha na area de software. Esse livro ć diferente. Ele explica o 
hardware de PCs de um modo tecnico mas muito acessivel. Entre os tópicos abordados estao CPU, memória, bar 
ramentos, discos, monitores. dispositivos de E/S, PCs portdteis, redes e muito mais. Um livro ram e va!ioso. 
Robinson. 'Toward the age of smaner storage”. 

O amiuzenamento percorreu urn longo caminho desde a ćpoca das niemórias de mSeleos (memória dc fcrri- 
te) e cartoes perfurados. Esse breve artigo examina por onde andou u tecnologia, onde elu sc enconira agora e para 
onde estd i udo. 

Scheihlc, "A survey of storage options”. 

Um outro exame detalhado da tecnologia de memória, só quc focalizando o que estd disporm cl agora. O livro 
discute os vśrios tipos de RAM. memória riipida (flash memory), fila, discos rfgidos, discos flexfveis, CDsc DVDs. 
Slun e Skadron. “Power-uwarc computing”. 

A medida que os computadores ftcam mais poderosos, eles consomem muita energiu, o que e um problemu 
crescente em um mumio cada vez muis portatil. Esse arligo e u introduęfio dos editores convidados para umu edi- 
ifdo especiul da IEEE Computer Magazine sobre computaęao e a preocupaęiio como o consumo de energia. 
Triebel, The NIHH6. and Pentium processor. 

E um pouco dilicil classificar esse livro pois ele trata de hardware, software e intcrface. lima vez que o autor 
trabalha para a Intel. vamos dizer quc se trata de um livro de hardware. Ele conta tudo sobre processadores, memó- 
rias, disposimos de E/S e interfqce dos chips 80x86, mas lambóm como programd-los em linguagem de montagcm. 
Etnbora possuu meras 915 pdginas, contćm qua.se tanio materiał quanto o livro de Messmer, jd que as pdginas sao 
maiores. 

9.1.3 O nivel lógico digital 

Floyd, Digital fundamenta!S“ cdięao. 

Para leilores interessados em hardware que desejam uprofundar seu estudo do nivel lógico digital, esse imen 
so livro, colorido e iuaiuvilhosumenle ilustrado, ć unia vcrdadeira preeiosiilade. Os capilulos abordum lógica com- 
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hinacional. disposilivos lógicos programaveis. Ilip-llops. registradores de deslocamculo. memórias. intcrfnce e 
muito mais. 

Mano e Kitne, Logic mul Computer design fundamenlols. 3° ediędo. 

Embora esse livro nBo tenlia a aprescntaęiio eleganle do livro de Eloyd. tambćm ć uma boa referćncia para o 
nfvel lógico digilal. Aborda circuitos combinacionais e seqiienciais. registradores. memórias, projeto de CPU e F/S. 
Mayhew e Krishnan. ‘‘PCI cxprcss and advanccd switching". 

O IVI Express provavclmente substiluira o barramcnto PCI no futuro próximo. e esse artigo ofereec urn tuto- 
rial para cmnadas. conlrole de fluxo, canais virtuais, eomutaęao c roteatnento. 

Mazidi e Ma/.idi, Tlie 80x80 IHM PC and compatihle computers. 4" ediędo. 

Para Icitores interessados cni entender todos os chips existentex dentro de um PC. esse livro posssui capflulos 
inteiros s<»bre os principais chips, bcni como uma profusao de outras informaęfies sohrc o hardware do IBM PC e 
a prograinaęao em linguagcm dc montagcin. 

Roth, Tundamentals of logie design. 

Esse livro didalico abrange os fundamentos do projeto de lógica digital. desde a dlgcbru hooleana ate portas. 
contadores, soinadores. flip-flops e outros tipos dc circuitos combinacionais e scq(icncinis. 

9.1.4 0 nivel da microarąuitetura 

Burger e Goodman. “Billion-transistor architectures: there and back again". 

Suponha que em 1997 nlgiiem tenha dado a vocS um bilhao de transistorcs c dito: “Projctc um chip”. Quc tipo 
de niicroarquitetura voc6 projetaria? Em setentbro dc 1997. as vis5cs dc sete pcsquisadorcs na drca da arquitetura 
a quem cssa pergunta foi fcita foram puhlicadas na IF.F.E Computer Magazine. Sete anos mais tarde. suas previsócs 
foram comparadas com a tecnologia de ponta da ćpoca. 

Handy, The caehe memory hook. 2“ ediędo. 

O projeto de cachc e Ido intportantc quc agora cxistem livros inteiros sobrc o assunto. O livro de Handy dis 
cute caches lógicas em comparaęao com cachcs ffsicas. tamanho de linha, polfticas de cscrila direla em contpara- 
ę3o com as dc escrita retroativa. caches unifteadas em comparaędo com caches divididas, bom como questóes dc 
software. Tambćm apresentu um capltulo sobre coercncia de cache dc microprocessador. 

Johnson. Stiperscalar microprocessor design. 

Para leitores interessados nos detalhes do projeto dc CPU superescalar, esse livro ć o indicado para comeęar. 
Ele abrange busca de instruędo e decodificaędo. cmissao de instruędo fora de ordcm. rcnomcaędo de registrador, 
cstaęóes de reserva, previsdo de dcsvio. entre outros assuntos. 

Shriver c Smith, “The anatomy of a high-performance microprocessor". 

Esse livro ć uma bon indicaędo para o estudo detalhado de um moderno chip de CPU no nfvel da microarqui- 
tetura. Examina detalhadanicntc o chip AMD K6, um clone do Pentium, dando ćnfase ao parnlelismo. ao escalona- 
inento de instruędo e a otimizaęftcs de desempenho. 

Sima. "Superscaliir instruction issue". 

A qucstdo da instruędo superescalar 6 cuda vez mais importante em CPUs modernas. Algumas das quest5es 
sao abotdadas nesse artigo. tal como renomeaędo e execuędo especulativa. Nesse artigo sao cxaminadas cssas e mui- 
tas outras questóes. 

Wilson. “Chnllenges and trends in proccssor design". 

O projeto de processador esld morto e enterrado? Nem pensar! Scis dos melhores nrqtiitełos de CPU da Sun. 
Cyrix, Motorola, Mips, Intel e Digital nos dizem para onde o projeto dc CPU esta se dirigindo nos próximos anos. 
Serd divertido ler esse livro em 2008 (mas tnmbdm vale a pena K?-lo agora). 

9.1.5 O nivel de arquitetura do conjunto de instruęao (instruction 
set architecture level) 

Antonakos, The pentium microprocessor. 

Os primeiros nove capflulos desse !ivro tratam de como programar o Pentium cm linguagem de montagem. 
Os dltiinos dois tratam do hardware do Pentium. Sfio dados vdrios fragmentos dc cddigo. e a BIOS reccbe um 
trataniento completo. 

Ayala, The 8051 microcontroUer. .1“ ediędo. 

Se voc6 estiver interessado em aprender a programar o 8051. esse livro ć uma opęSo ra/navel para comeęar. 

Bryant e 0’Hallaron, Computer systems: a programmer's perspectiw. 

Embora um pouco desorganizado, esse livro abrange uma ampla ńrea relativ« ao nfvcl ISA. incluindo aritmć- 
tica, diferentes tipos de instruęfies. controle dc fluxo e olimi/.aęao de programa. 

Paul. SPARC architecture. assemhly languoge. programming, and C. 

Maravi!ha das maravilhas. eis um livro sobrc prograinaęao em linguagem de montagem que nao trata da linha 
Intel 80x86. Em vez disso. trata da SPARC c de como programd-la. 





Weavere Germond, The SFAKC architecture immital. 

Com a crescente iniemacionalizaęao da inddstria de eomputadores, os padróes estiło se tomando cadu vez niais 
importanles, por isso 6 indispensavel eslar familiarizado com eles. Esse livro trata da definiędo da Versao 9 da Spare 
e da urna boa ideia ile como e um padrao, ulem de muitas informaęóes sobie o modo de funcionamento da Sparc de 
64 bits. 

9.1.6 O nivel de maąuina do sistema operacional 

Hart, "Win32 system programming” 

Diferenlemenlc de quuse todos os outros livros sobre Windows, esse nao se dctćm na interface gratka de usu;i- 
rio (ou nem a aborda). Hm vez disso, eoncentra-se nas chamadas de sistema oferecidas pelo Windows e como usd- 
las para acesso a urquivo, gerenciamento de memória. gerenciamento de processo, comunicaęSo entre processos, 
threads, H/S e ontros lópicos. 

Jacoh e Mudge. "Yirlual memory: issues of implementation”. 

Se quiser urna boa e moderna inlroduęfio sobre memória virlual. procure aqui. O livro explica vdrius lubelas 
de ptiginas e cslruturas TUB e ilustra as ideius usando os processadores MIPS, PowerPC e Pentium. 

McKnsick cl al„ Design mul implementation ofthe 4.4 BSD operating system. 

Diferenlemenle da maioria dos livros sobre UN1X, esse comeęa com urna toto dos quatro autores em urna 
Conlerćnciti IJSENIX (USHN1X Conference), tres dos quuis escreveram grandę parte do 4.4 BSD e sao emincnte- 
mente qualilkados |iara explicar seu funcionamento interno. O livro abrange as chamadas de sistema, processos. 
E/S c possui urna seęao especialmenle boa sobre redes. 

Kilchie e Thompson. "The UNIX time-shuring system”. 

lisse ć o artigo original publicado sobre o UNIX. Ainda vale a pena ler — dessa pequena semenie surgiu um 
ótinro sistema operacional. 

Russinovich e Solomon, Inside Microsoft Windows, 4“ ediędo. 

Se voc6 quiser saber como o Windows funciona intemamente, esse livro 6 a inelhor opęio. Ele discute a arqui 
letura e os mecanisnios do sistema, processos, tiireads, gerenciamento de memória, seguranęa, E/S, cache e sistema 
de arquivo, entre outros lópicos. O livro ć um estudo detalhado e profundo dirigido a estudanles de Ciśncia da 
Cornputaęao e profissionais de Tecnologia da Informaęao. 

Tanenbaum e Woodhull, Operating syslems: design and implementation, 2“ ediędo. 

Diferentemente da maioria dos iivros sobre sistemas operacionais que tratam apenas da teoria, esse Ikro abran¬ 
ge toda a teoria relevante e a ilustra discutindo o código de um sistema operacional parecido com o UNIX, o 
MINIX, que executa no IBM PC e em outros eomputadores. O código-fonte 6 apresentado em um apendice acom- 
panhado de muitas observaęoes. 

9.1.7 O nivel da linguagem de montagem 

Levine, Linkers and loaders. 

Se o seu negócio sao ligadores e carregadores e voce se diverte com os vdrios formatos de objetos existentes, 
a difcrenya entre ligaęao estótica e dinamica e os vdrios formatos de biblioteca, esse e o livro para voce. 

Saloman, Assemblei s and loaders. 

litdo o que voce quer saber sobre o modo de funcionamento de assemblers de urna passagem e dc duas pas- 
sagens, bem como de ligadores e carregadores, esta aqui. Macros e montagem condicional tambem sao abrangidas. 

9.1.8 Arquiteturas paralelas de computador 

Adve e Gharachorloo, •‘Sliared memory consistency models: a tutorial”. 

Muitos eomputadores inodemos, em espeeial ntultiprocessadores, suportam um modelo de memória mais 
fraco do quc a consistdncia seqiiencial. Esse tutorial discute varios modelos e explica como eles funcionant. 
Tambem confirma ou rcfula varios mitos sobre memória de baixa consistencia. 

Comer, NetWork systems design. 

A primeira parte desse livfo trala do tradicional processo de empacotamento em redes, mas a segunda intro- 
duz processadores de rede e descreve sua finalidade, arquitetura e comproniissos de projeto. A terceiru parte exa- 
niina o processador dc rede Agere como um estudo de caso. 

Daily eTowles, Pritwiples andpractices of interconnection networks. 

Se voce estiser interessado em redes de interconexao, esse 6 o livro a consultar. Após urna introduęao ii topo¬ 
logia. sao eslududas redes borboletu, redes loro e redes nao bloqueadoras. lim seguida apresentam-se alguns capf- 
tulos sobre roleamento, controle de fluxo, bulTers, deadlock e questóes relacionadas. 

Dong aria et ul., The Sounehook of parallel computing. 

Programar tnultiprocessadores e clusters 6 bem diferenle de programur uniprocessadorcs. Nesse livro, sete 
especialistas lideres na drea abordam varios aspectos da programaęao paralela, entre eles arquiteturas paralelas, lec- 
uologias de soltwuie, algoritmos paralelos e algutnas aplicaęóes. 
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Hill, “Multiprocessors should support sintple memory-consistency models". 

A seniflntica de mciuória uienuadu e uin lópico polćmico c controversu cm projelo dc memória de mullipro- 
ccssador. Modclos mais fracos pennilcm ccrtas otimizaęóes dc hardware, como fa/er referSncias fora dc ordem, 
mas dillcultam a programaęflo. Ncsse artigo. o autor discutc muitas questóes relcvantes para a consistćncia ile 
memória e conclui quc a semantica atenuada nao valc os problemas que causa. 

Hwang e Xu, Scalable parallel computing. 

Abordando o hardware e tambćrn o software, os autores apresenlam urn panorama abrangente. mas dc fricil 
leitura. da computaęfio paralela. F.ntre os tńpicos estAo os multiprocessadores UMA c NUMA. MPPs e COWs, pas 
sagem de mensagens e programaęAo paralela de dados. 

Lawton, “Will network processor units live up to their promise?” 

Embora proeessadores de rede prometam acelerar o processamento dc pacotes. seu succsso nao ć garanlirin 
Nesse artigo. o autor exainina a tccnologia e alguns dos fatores que podcm determinar seu sucesso ou fracasso. 
McKnight et al.. “Wirelcss grids". 

As grades mai surgiram e sua prósinta gcraęAo - grades sem fio — jA desponta no hori/onte. Assim como as 
normais, as grades sera fio visani compartilhar rccursos enlre organizaęóes para criar organizaęóes virtuais, só que 
usam tecnologia sem fio para disponibilizar esses recursos a usufirios móveis. Os dois artigos seguinles a esse tam- 
hćm tratam dc grades sem fio. 

Pfister. In search of clusters. 2“ edięao. 

Embora a definięao de cluster nao apareęa atć a pdgina 72 (urn punhado dc computadores conipletos que tra- 
balham em conjunto). cla aparentemente inclui todos os sistemns multiprocessadores e multicomputadores usuais. 
Seu hardware, software, desempenho c disponibilidade sao estudados cm detalhc. Mas advcrtinios o leitor quc, 
embora no infcio o eslilo engraęadinho do autor seja interessuntc. Id pela pdgina 500 a novidndc jd sc esgotou. 

Snir et al.. MPI: Tlie complete reference manuał. 

O tftulo diz tudo. Sc vocź quiser aprender a programar em MPI. consulte esse livro. Ele abrange comunicaęAo 
ponto a ponto c coletiva, comunicadores, gercnciamento ambiental, determinaęao dc perfil e outros. 

Stenstrom ct al.. ‘Trends in shared memory multiprocessing”. 

Embora multiprocessadores dc memória compartilhada sejam freqllentemente considcrados como supcrcom 
putadores para cdlculos cientlficos nutcięos. na verdadc cssa e apenas unia dimitiuta fraęao cle seu mercado. Nesse 
artigo o autor discutc onde se cncontra o real mercado para essas maquinns c quais as implicnęóes quc isso acarre 
ta para sua urquiteturu. 

Ungerer et al., "A survey of processors with cxplicit niultithreading". 

O artigo explica como funciona cada urn dos principais tipos de niultithreading - granulaę&o lina, granulaęao 
grossa e simultaneo — e dd vdrios exemplos de computadores acadćmicos e comercinis que uiilizam cada tecnica. 
Wolf. "The futurę of multiprocessor systems-on-chips". 

Após apresentar trSs projetos aluais de sistemas eht um dnico chip, o autor passa a esaminar desafios dc 
hardware c software para sistemas futuros. Entre os problemas dc hardware cstdo tempo real e preocupaęóes com 
dissipaęao dc energia. Entre os de software estao ipiestócs de sistemas operacionais e potenciais |>roblcma« 
dc scgurnnęa. 

9.1.9 Numeros binarios e de ponto flutuante 

Cody, “Analysis of proposals for the floating-point standtml". 

Alguns anos atrds, o 1HF.E projetou unia arquitctura de ponto flutuante que se tomou o padrao de facio para 
todos os chips dc CPU modernos. Cody discutc as vdrias questóes. propostas e contrwórsias que surgiram durantc 
o processo de padronizaęao. 

Koren, Computer arithmetic algorithms. 

Um livro completo sohre aritmetica, com enfase em algorilmos para adięao. multiplic;u,ńo e dis isifo rdpidas. 
Muito recomcndado para quem acha que ja aprendeu tudo o quc ha para aprender sobrc arilmótica na sexta serie. 
IEEE. Proc. of the n-th Symposium on Computer arithmetic. 

Ao contrdrio da opinido popular, a aritmćtica ć urna area de (iesquisa ativa com muitos artigos cientlficos escri 
los por c para especialistas. Ncssa sórie de simpósios sAo apresentados os avanęos cm adięao e multiplicaęao de alta 
velocidade. hardware arilmćtico VLSI, co-proccssadores, tolerAncia a falha e arredondamento, entre outros lópicos. 
Knuth, Seminumericol algorithms.ediędo. 

Urna profusao de materiał sobrc sistemas de numeros posicionais, aritmetica de ponto flutuante, aritmćtica tle 
prccisao tmiltipla e numeros aleatórios. F.ssc materiał requer c mercce cuidadoso estudo. 

Wilson, “Floating-point survival kil”. 

Urna interessante introduędo u numeros de ponto flutuante e padróes para qucm acha qtic o mtindo acaba em 
65.535. Tambćm sao discutidos alguns padróes de comparaęfto populares para algorilmos de ponto flutuante, como 
Unpack. 





9.1.10 Programaęao em linguagem de montagem 

Blum, Professional assembly language 

Uni guia pura profissionais sobre a programuęito do Pentium ein linguagem de montagem. Urna vez que o livro 

ć orientudo para profissionais, o autor entende que voc& esta executando Linux em seu Pentium c focaliza o asscm- 

hlcr l.inu\ e ferramentas GNU, bem como discute as chamadas de sislcma l.inux. 

lrvine, Assembly language for intel-based Computer*, 4“ ediyao. 

Programar CPU* Intel em linguagem de montagem e o assunlo desse livro. Tambem ahrange programaęao de 

E/S, niaeros, arquivos, ligaęao, inlemipęóes e muitos outros tópicos relacionados. 
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Numeros 

binarios 


A aritmćtica usada pur computadorcs e urn pouco difercnte daquela utilizada pclas pessoas. A iliferenęa mais importanle 
e que computudores realizam opcraęócs com numeros cuja precisao ć finita c fixa. Ouira diferenęa e que a mainria dos 
computadorcs usa o sistema binario c nao o dccimal para representar numeros. Esscs tópicos sao o assunlo desie 
apendice. 

a i Numeros de precisao finita 

Quando eslamos ctcluando aritmćtica, cm geral. nem pensamos na questao de quanlos dfgilos decimais sAo necessArios 
para representar urn numero. F(sieos pudem calcular que ha I0 7M elćtrons no univcrso seni se preoeupar com o falo de quc sao 
necessArios 79 digiios decimais para escrever esse numero por extenso. Algućrn que eslivesse calculando o valor de urna lunęao 
com lapis c papel w precisasse da resposta com seis digiios significativos simplesmenie inanteriu os resultados inlermediarios 
com sete digiios, ou oilo, ou quanios fossent necessArios. Nuncu surge o prohlema do papel nao ser grandę o suliciente para 
numeros de sete digiios. 

Com computadorcs, u historia e hem difeicnie. Nu maioria deles, a quuntidade de memóriu disponivel para urma/enur 
numeros e li xuda na ocasiAo Cm que a maquina e projelada. Com urn pouco de esforęo, o programador pode representar 
numeros duas. ou trós, ou ule niuito mais ve/es maiores que essa quantidadc lixa, mas isso nao mudu a nature/a da dilieuldudc. 
A nalureza finita do compuiudor nos obriga a lidar somente com ndmeros que poiłem ser represcnlados por urna quantidade 
lisa de dfgilos. os quuis denominamos numeros de precisao fluitu. 

Para csludar a> propriedudes de numeros de prccisAo finita, vamos examinar o conjunto de inleiros positivos que pinie ser 
represeniado por lies digiios decimais, sem nenhum ponlo dccimal c sem nenhum sinal. Esse conjunto tern cxaiumcnle mil 
memhros: (KK1. (MII 002, (KI.i 999. Com essa restrięAo, ć impossivel expressar cert os tipos de mimeros, como 

I. Numeros maiores que 999. 

2. Numeros negativos. 

3. Fruęóes. 

4. Numeros irracionais. 

5. Numeros compłcxos. 

Urna propriedude importanle da aritmćtica no conjunto de todos os inteiros refere-se ao fechamento no i|ue diz respeito 
As operaęóes de adięao, subtraęAo e mulliplicaęao. Em outras palavras. para cada par de inteiros i ej , i + j, i -je i X j lumhćm 
sao inteiros. O conjunto dc inleiros nao e fechado no quc di/ respeito A divisao, porque existem vulores de i ej para os quais 
i/j nao pmle ser expresso como urn inteiro (porexemplo, 7/2 e 1/0). 

Numeros de precisao finita nAo sao fechados cm reluęao a nenhunta dessas quutro opcraęócs basicas. como mostramos a 
seguir, usundo numeros decimais de tres digiios como exemplo: 

600 + 600 = 1200 (muito grandę) 

003 - 005 = 2 (negativo) 

050 x 050 = 2500 (muito grandę) 

007 / 002 - 3,5 (nao e urn inteiro) 

As violaęócs pudem ser divididas em duas elasses mutuamente exclusivas: opcraęócs cujo rcsultado ć nraior que o maior 
numero no conjunto (erro de cxcessu) ou menor que o tnenor numero no conjunto (erro de falta) e operaęóes cujo rcsultado 
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nuo ć nem inuito grandę nem niuito pequcno, mas simplcsmenlc nAo ć urn membro do cnnjiinto. Dns qualro 
violaęóes citadas acima, as trćs primeiras sAo exemplos da violaęAo pelo primeiro mo(ivn (esccsso ou falla) e a 
quarta e urn exempio de vioiaę3o pelo segundo motivo. 

Como computadores t£m memórias finitas e, portanto, devem ncccssariamente efetuar aritmćtica com numeros 
de precisSo finita. os resultados tle certos calculos serAo. do ponto tle vista da matematiea clAssiea, simplcsmenlc 
errados. Urn dispositivo dc cdlculo que dd a resposta errada. cmhora esteja cm perfeitas condięoes de 
funcionamento. pode pareccr estranho dc infcio. mas o erro ć urna conseqtićncia lógica dc sita naturcza finita. 
Alguns computadores tern hardware especial que detecta erros de excesso. 

A algebra de numems dc precisao finita ć difcrcnlc da Algebra normal. Como exemplo. considere a lei 
associativa: 

a + (b - c) = (a + b) c 

Vamos avaliar ainbos os lados para a = 7(X), b = 44X). r = 300. Para calcular o lado esqucrdo, primeiro calcule 
(A — r). qtic ć 100. e entSo some essa yuantidadc a o .o que d.1 SCO. Para calcular o lado dirvi to. primeiro calcule 
(u f /;), o que da um excesso na aritmćtica finita de tres dfgitos intciros. O rcsultado pode depender da m.iquiun que 
esta sendo usada. mas nao serii 1100. Subtrair 300 dc alguin numero quc nao soja 1100 nAo vai rcsultar 800. A lei 
associativa nao vale. A orderu das opcraęties ć importante. 

Como oulro exemplo, considere a lei distrihutiva: 

aX(b-c) = aXb-aXc 

Vailios avaliar ambos os lados para a - 5. h ■ 210, c = 195. O lado csqucrdo ć 5 7 15. o quc (lst 75. O lado 
direito nSo ć 75 porque a X b dd erro de excesso. 

A julgar por esses exemplos, poderfamos concluir que. einbora os computadores sejam disposilivos dc uso 
geral. sua naturcza finita os (omam especialntcnte inadequados para efetuar aritmćtica. li elaro que cssa conclusdo 
nao ć verdadeira, mas serve para ilustrar a importAncia de enlender como os computadores funcionam c <|tiais sAo 
suas limilaęOcs. 

a .2 Sistemas de numeros raiz, ou numeros-base 

Um numero decimal ordindrio com o qual todos estamos familiarizados consiste cm urna se<|(i6ucia de dfgitos 
decinrais c. possivelmentc, um ponto decimal (vfrgula aritmćtica). A forma geral e sua interpretaęAo usual sAo 
mostradas na f igura A.l. Escolhemos 10 como a hase para cxponenciavao, denominada a rai/ ou base. portpie 
estamos usando numeros decimais, ou de base 10. Quando se trata dc computadores, muitas ve/es ć comeniente 
usar outras bases que nao sejam 10. As bases mais importantes sAo 2. 8 c 16. Os sistemas de numems baseados 
nessas bases. ou rafzes. sAo eltamados binarios. octais c hesadeeimais. respectivamente. 

Um sistema numćrico de base k requer k sfmbolos diferentes para representar os dfgitos On k I. Numeros 
decimais sAo formados a partir dos 10 dfgitos dccintais 

0123456789 

Por comparaęAo, numeros bindrios ndo usant esses dez dfgitos. Todos eles sao construfdos exdusivamente a 
partir de dois dfgitos binarios 

01 

Numeros octais sao formados a partir dos oito dfgitos octais 

01234567 

Para os numeros hcxadecimais sao necessdrios 16 dfgitos. Assim, prccisamos de mais scis novos sfmbolos. Por 
cornen^ao. sao usadas as letras maitisculas dc A a F para os seis dfgitos depois do 9. EnlAo. numeros hesadecimais 
sao montados a partir dos dfgitos 

01 23456789ABCOEF 


Figura A.1 

A forma geral de um 
numero decimal. 


poslędo posiężo posięflo 
da 100 de io de 1 


dj d, d 0 


posięflo poslęfto pos(ę«o 
de .1 da .01 de ,001 


d i d| d 9 ... d k 


Numero = dtx10 
l»-k 


a 

m 




Błnńrio 


1 1 1 1 1 0 1 O 0 0 1 

1x2 l0 -*-1x2 l * + 1x2*f1x2 7 »1x2*»0x2“'ł-1x2 4 + Ox2 ;, + O*2‘ , + Ox2'łlx2 11 
1024 ł 512 » 256 . 128 ♦ 64 *0 *16 ♦ 0 *0 *0 -fi 


Huura A 2 

0 numero 2001 em 
sistema bindrio, octal e 
hexadeclmal 


Ocial 


Decimal 


3 7 2 1 

3 x8 s + 7 x8* ł 2 x8' t 1x8° 

1536 ł 448 t 18 + 1 

2 0 0 1 

2 x 10* + 0 x 10 1 ł 0'x 10' + 1 x 10° 

2000 * 0 ♦ 0 +1 


HexaOecimal 7 


7x16* 13x16' 

1792 ♦ 208 


1 x16° 


A exprcM.au "dfgito bindrio”, que significa 1 ou 0, costunia ser denominada um bit. A Figura A.2 niostru o 
numeru deeimal 2001 expresso em forma binaria. octal, decimal e hexadecimal. O numeru 7U9 d obviamenie 
hexadecimal, purquc u simbolo U só pude ucurrer em mimerus hexadecimais. Contudo, u numeru 111 podcria eslar 
em quaiquer um do.s sistemas numericos discutidos. Fara cvitar ambigiiidade, custuma-se usar um uidice interior 2, 
8, 10 ou 16 para indicar a base quando ela n&o <5 óbvia pelo próprio contcMO. 

Como exenipio de noiaęflo bindria, octal, deeimal e hexadecimal, considere a Figura A.3, que moslru um 
conjunto de inleirus ndo-negativos cxprcssos em eada um desses quairo sistemas diferenies. Talve/. daqui a milhares 
de anus ulgum urqueólugo deseubra essa tabela e a considere a Pedra de Kusetta dos sistemas numericos do finał 
do sćculo XX e infcio do sćculo XXI. 

Tabela A.i Numeros decimats e seus equtvalentes bmano, octais e hexadecimais. 


Deeimal Binaria Octal Hex Decimal Binaria Octal i Hex 


0 

0 

0 

0 

14 

1110 

16 

E 

1 

i 

1 

1 

15 

1111 

17 

P 

2 

10 

2 

2 

16 

10000 

20 

10 

3 

11 

3 

3 

20 

10100 

24 

14 

4 

100 

3 

3 

30 

11110 

36 

1E 

6 

101 

5 

5 

40 

101000 

80 

28 

6 

i 10 

6 

6 

50 

110010 

62 

32 

7 

Ili 

7 

7 

60 

111100 

74 

3C 

8 

1000 

10 

8 

70 

1000110 

106 

46 

8 

1001 

11 

9 

80 

1010000 

120 

50 

10 

1010 

12 

A 

90 

1011010 

132 

5A 

U 

1011 

13 

B 

100 

11001000 

144 

64 

12 

1100 

14 

C 

1000 

1111101000 

1750 

3E8 

13 

1101 

15 

D 

2989 

101110101101 

5665 

BAD 


a.3 Conversao de uma base para outra 

A convcrsdo de numeros octais ou hexudecimais para numeros bindrios ć facil. Para converler um ndtnero 
bindrio para ocial, divida o em grupos de 3 bits. cum os 3 bits imediutamenle a esquerda (ou d direita) do i>onto 
decimal (muilas vc/.es denominado um ponto bindrio ou vfrgula aritmćtica) formamlo um grupo, os 3 bits 
imedialamente a sua esqucrda oulro grupo e assim por dranie. Cada grupo de 3 bits pode ser cotwertido diretatnentc 
para um dnico digilo octal. 0 a 7, de acordo com a coiwersao duda nas primeiras linhas da Tabela A.I. Talvez seju 
riecessdrio adicionur um ou dois ccros a esquerda ou d direita para preencher um grupo e completar 3 bits. A 
conversflo de octal para bindrio 6 igualmente trivial. Cada dfgito octal 6 simplesmcnte substiluido pelo numero 
binario equivalenic *le 3 bits. A conversdo de hexadecimal para bindrio ć, em essencia, a mesma que de octal para 
bindrio, exceto quc cada digilo hcsadecimal corresponde a um grupo dc 4 bits em ve/ de 3 bits. A Figura A.3 da 
alguns escntplos de conversftes. 
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Exemplo 1 
Hexadecimal 
Binśrlo 
Octal 

Figura A.3 

Exemplos de conversao octal 
para binario e hexadecimal 

para bindrio _ Exem P io2 

Hexadedmal 
Bindrio 
Octal 

A cotwersSo de numeros deciroais para bindrios pode ser feita de dois modos diferenles. O primeiro mćtodo 
resulta dirctamcntc da definięao de numeros bindrios. A niaior potencia de 2 menor qne o mi mero e subtrafda do 
ntimero. Entao, o processo e repetido na diferenęa. Uma vez quc o niimcro tenha sido decomposto em potencias de 
2, o numero binario pode ser montado com ls nas posięSes de bit correspondentes ds potencias de 2 usadas na 
decomposięao e Os cm todos os outros lugares. 

O outro mćtodo (só para inteiros) eonsiste em dividir o numero por 2. O quocientc e escrito diretamente abaixo 
do numero original e o resto, 0 ou I, ć escrito ao lado do quociente. Entdo, eonsidera-se o quocicnte e o processo ć 
repetido atć chegar ao numero 0. O resultado desse processo serd duas colunas de miineros, os quodentes e os 
restos. O numero bindrio agora pode ser lido diretamente na coluna do resto contcęando por bai\o. A Figura A.4 dd 
um exemplo de convers3o tle decimal para bindrio. 

Inteiros bindrios tambćm podeni ser convertidos para decimal de dois modos. Um mćtodo eonsiste cm soniar 
as potencias de 2 correspondentes aos bits I no numero. Por exemplo, 

10110 = 2 * + 2 * + 2 ' = 16 + 4 + 2 = 22 

No outro metodo, o numero bindrio ć escrito na ver!ical, um bit por linha, com o bit da extrema esquerda em 
baixo. A linha de baixo e denominada linha 1. a linha acittia dela, linha 2 e assim por dianie. O ntimero decimal sera 
montado em uma coluna paralela ao lado do numero bindrio. Comece escrevendo 1 na linha I. A entrada na linha 
w eonsiste em duas vczes a entrada na linha n I ntais o bit na linha n (0 ou I). A entrada na linha do topo ć a 
resposta. A Figura A.5 dd um exemplo desse metodo de convcrsao de numero binario para decimal. 

A conversao de decimal para octal e de decimal para hexadecimal pode ser realizada primeiro convertcndo 
para binario e depois para o sistema desejado, ou subtraindo potencias dc 8 ou 16. - 

Quoc(entes Restos 


1 9 4 8 . B 6 

0001100101001000.101401100 
1 4 5 1 0.5 5 4 


1 B A . _B_ C 4 

• 0111101110100011.10111 t ono i 00 

7 5 6 4 S . ń 7 0 4 


1 49Z 
746 

Figura A 4 373 

Comrersao do numero 1 g g 

decimal 1492 para bindrio 


por dlvts5es sucessivas 9 3 

por 2, comeęando no topo 4 B 
e prossegulndo para 
baixo. Por exemplo, 93 
dlvidido por 2 dd um 11 

ąuociente de 46 e um 5 


resto de 1, escrito na linha 

abaixo dele. _ 2 

1 

0 



a. 4 Niimeros binarios negativos 

Qualro sistemas diferenles para representar numeros negativos jd forant usados cm computadores digitais em 
uma ćpoea ou outra da histńria. O primeiro ć conhecido como magnitude com sinal. Nesse sistenta. o bit da 
extrema esqucrda ć o bit de sinal (Oć + elć-)eos bits restantes contSm a magnitude absolutu do numero. 




figura Ab 

Conversao do ruimero bindrio 
1011101101II para dectmal por 
sucesstvas multipllcagóes por 2. 
tnlciando embaixo. Gada hnha a 
formada mulUplicandu-se por 2 a 
que esta abalito dola a somando o 
bit correspondente. Por exemplo. 
749 e duas vezes 374 mats o bit I 
na mesma Imh.i gue 749_ 


10 1110 110 


L 

V_ 


2x 1499 - 2999 
2x749 - 1499 
1 ♦ 2 x 374 - 749 
0 + 2 x 187 = &74 
1 + 2x93= 187 
1 + 2 x 48 > 93 
0 ♦ 2 x 23 - 46 

1+2x11 = Ź3 
V 

1 ♦ 2x5 = 11 
V 

1+2x2=15 
0 ♦ 2 x 1 = 2 
1+2x0»l - 


O segundn sistema, dcnominado complemento de um. tambeni tern um bit de sinal, gue e 0 para inuis e 1 para 
nienos. Para tumar um mimem negativo, substitua cada l por 0 e cada zero por 1. Isso vałe tambem para o bil tle 
sinal. O complenicnto tle I ć obsoleto. 

O terccirn sistema. chuniado eoinplemento de dois. tambem tern um bit de sinal ipu: e 0 para ntais e I para 
itienos. O proeesso para translormar um numeru em negntivo tern duas etapas. Na primeira, cada 1 e subsliluido por 
0 e cada 0 por I, esatamente como no eoinplemento de um. Na segunda, I e adicionado ao rcsulladu. A adiy&o 
binaria ć igual a adięao dccimal, exceto que um vai-utn ć gerado se a soma for maior do que 1 em vez de maior do 
que 9. Por exetnplo. a conversao de 6 para eoinplemento de dois tern duas elapas: 

00000110 (+6) 

11111001 ( 6 em complemento de um) 

11111010 ( 6 um complemento de dois) 

Se oeorrer um vai-um no bil da exlrema esquerda, ele e deseartado. 

O tjuailo sistema, que e chamado excesso 2"‘ 1 para numeros de ni bits, representa um ml mero armazenundo- 
o eomo u soma delc mesmo com 2'"' 1 . Por exemplo, para numeros de 8 bits, m - 8. o sistema i denotninado exces- 
so 128 e um ntimero e armazenado eomo seu verdadeiro valor rnais 128. Porianio, 3 se loma -3 + 128 = 125, e 
3 e represcniado pelo mi mero binario de 8 bils para 125 (01111101). Os ndineros de 128 a +127 mapeiam para 
0 a 255, lodos os qoais poiłem ser expressos como um inlciro positivo de 8 bils. O intercssanlc e que esse sistema 
e ideniico ao complemento dc dois com o bit de sinal invertido. A Tabela A.2 da exemplos de numeros ncga(ivos 
em todos os qualro sislemas. 


Tabela a.2 Numeros negativos de 8 bits ent quatro sistemas. 


■ decimal 1 

binńrio 

-N 

magnitude com sinal 

-N 

complemento de 1 

-N 

complemento de 2 

5 

excesso 128 1 

1 

00000001 

10000001 

11111110 

11111111 

01111111 

2 

00000010 

10000010 

11111101 

11111110 

01111110 

3 

00000011 

10000011 

11111100 

11111101 

01111101 

4 

00000100 

10000100 

11111011 

mmoo 

01111100 

8 

00000101 

10000101 

11111010 

11111011 

omioii 

6 

00000110 

10000110 

11111001 

11111010 

01111010 

7 

000001u 

10000111 

ninooo 

imiooi 

01111001 

8 

00001000 

10001000 

liliom 

11111000 

01111000 

9 

00001001 

10001001 

11110110 

nilom 

omom 

10 

00001010 

10001010 • 

11110101 

11110110 

omoHO 

20 

00010100 

10010100 

11101011 

moi 100 

01101100 

30 

00011110 

10011110 

11100001 

I1100010 

01100010 

40 

00101000 

10101000 

11010111 

11011000 

01011000 

50 

00110010 

10110010 

11001101 

noomo 

oiooi mo 

60 

00111100 

10111100 

11000011 

11000100 

01000100 


(Continua) 
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Tabela A.2 Numeros negativos de 8 bits em ąuatro sistemas. (Continuaęao) 


1 N 1 
1 declmal 

N 

binarlo 

-N 

magnitudo com sina 

-N 

1 complemento de 1 

•N 

complemento de 2 

* 

excesso 128 1 

70 

01000110 

11000110 

10111001 

10111010 

00111010 

80 

01010000 

11010000 

10101111 

10110000 

00110000 

90 

01011010 

11011010 

10100101 

10100110 

00100110 

100 

01100100 

II100100 

10011011 

10011100 

00011100 

127 

01111111 

11111111 

10000000 

10000001 

10000001 

128 

Nao existente 

Nfio exisiente 

N8o existente 

10000000 

00000000 


Magnitudcs com sinal. bem como complemento de um, tem duas represcntaęSes para zero: mais zero e menos 
zero. Essa situaęao e indesejrivel. O sistenia dc complemento de dois nao lem esse prohlema porque o complemento 
de dois de mais zero ttunbćm e mais zero. Contudo, o sistema de complemento dc dois tern nma singularidadc 
diferente. O padriio de bit que consiste em I seguido por Os e seu próprio complemento. O rcsullado disso 6 quc as 
faixas de numeros positivos e negalivos ficam nao-simćtricas; hd um niiinero ncgativo sem nenlumia contraparte 
positiva. 

A razao desses problcmas nao 6 dificil de achar: queremos um sistema dc cndificaęBo que lenha duas 
propriedodes: 

1. Somente urna rcpresentaęiio para zero. 

2 . Esatainentc a mesma quanlitlade dc numeros positivos e numeros negalivos. 

O problemu 6 que qualquer conjunto de niimeros com a mesma quantidade de numeros positivos e numeros 
ncgaticos e só um zero tein um mi mero finpar de membros, ao passo que m bits permile um niimcro par de padraes 
de bits. Sempre lwverś um padrSo dc bits a mais ou um pndrao dc bits a menos, nao importando ipial representaęao 
seja cscolhida. Esse padrfio de bits extra pode ser usado para 0 ou para um niimcro negatho gnimle, ou para 
quali|uer outra coisa, porćm. nao iinporta como seja usado, cle serd sempre um incOmodo. 

a.5 Aritmetica binaria 

A tabela dc adięao para numeros hindrios ć dada na Figura A.6. 

Dois niimeros bindrios podem ser somados, iniciando no bit da extrema direita e somando-se os bits 
correspondentes no adendo c no augendo. Se for gerado um vai-um, ele e tmnsportado para urna posięao a esquerda, 
exatamcnte como na aritmetica dccimal. Em aritmetica dc complemento dc um. um vai-um gerado pela adięao dos 
bits da extrema esquerda <5 soniado ao bit da extrema direita. Esse processo ć denoibinado um trnnsporte. ou vai- 
um, de conlorno. Em aritmetica de complemento de dois. um vai-um gerado pela adięao dos bits da extrenm 
esijuerda ć apenas dcscartado. Esemplos de arittnćtica binaria s3o mostrados na Figura A.7. 

Se o adendo e o augendo tivcrcm sinais opostos, nao pode ocorrer um erro de excesso. Se livereni o mesma 
sina! c o resultado tivcr sinal oposto, ocorrcu um erro de excesso e a resposta estii erradn. Em amhas as 
aritmćticas, a dc complemento de um e a de complemento dc dois. ocorre excesso sc. c somente se. o vai-um para 
o bit de sinal for diferente do vai-um do bit de sinal. Grandę parte dos computadores preserva u vai-um do bil de 
sinal. mas o vai um para o bit de sinal nao ć visfvcl pela resposta. Por essa raziło, geralmente ć fomecido um bil 
de excesso cspecial. 

Union A.6 

A tabela de adięao em 
binArio._ 


Flunrn A.7 

Adięao em complemento 
de um e complemento 
do dola _ 


Adendo 

Augendo 

Soma 

Vai-um 


Complemento de 1 Compl emento de 2 


><-3) 


1 00000110 

"S. 

vaium 


a 



00000111 



I 


Problemas 

1. Converta os seguintes niimeros para hindrio: 1984, 4000, 8192. 

2. O que ć l()01101001 (biniirio) em decimal? Em octul? Em hexadecimal? 

3. Quais dos seguintes san niimeros hexadecimais vdlidos? BED, CAB, DEAD, DECADE, ACCEDED, BAti, 
DAD. 

4. Expresse o niimero decimal 100 em todas as bases de 2 a 9. 

5. Quanlos inteiros posilivos diferentes poiłem ser expressos em k dfgitos usando-se niimeros de base r? 

6. A maioria das pessoas só pode comar ató dez nos dedos; contudo, cientistas da compuiaędo tuzem mais que 
isso. Se voce considerar cada dedo como um bil bindrio, e o dedo estendido represcniar 1 e o dedo tocando na 
palma da mao represcniar 0, ale quanto pode conlar usando os dedos de ambas as maos? E com os dedos de 
amhas us maos e de anibos os pds ? Agora, use lamo as maos como os pćs, com o dedao de seu pć esquerdo 
representando um bit de sinal para niimeros de complemento de dois. Qual e a t'aixa ile niimeros que pode ser 
expressa desse modo? 

7. Kfetue o seguinie cdlculo em niimeros de 8 hits de complemento de dois. 

ooioiioi uiiiiii oooooooo linom 

-t-01101111 +III1IIII - 211111111 - 211110111 

8 . Repila o cdlculo do problema anterior, mas agora em complemento de um. 

9. Considere o seguinte problema de adięao para niimeros bindrios de 3 bits em complemento de dois. Para cada 
soma, diga 

u. Se o bit de sinal do resultado 6 I. 

b. Se os 3 bits de ordem baixa sao 0. 

c. Se ocorreu um erro dejjxcesso. 

000 000 111 100 100 

+0UI_ +111 +110 +111 +100 

10. Niimeros decimais com sinal consistindo em n dfgitos podem ser representados em n + 1 dfgitos sem um sinal. 
Niimeros positivos tern 0 como o dfgito da extrema esquerda. Niimeros negativos sao formados subtraindo-se 
cada dfgito de 9. Assim, o negativo de 014725 e 985274. Tais niimeros sSo denominados niimeros de 
complemento de nove e sao andlogos aos niimeros bindrios de complemento de um. Expresse os seguintes 
como niimeros de tres dfgitos de complemento de nove: 6, —2, 100, —14, —1,0. 

11. Detenninc a regra da adięao pani niimeros de complemento dc nove e entao cfetuc as seguintes udięóes. 

0001 0001 9997 9241 

+9999 +9998 +9996 +0802 

12. Complemento ile dez e analogo a complemento de dois. Um ndmero negulivo de complemento de dez 6 
formado somando-se 1 ao niimero de complemento de nove correspondente, ignorando o yai-um. Qual ć a 
regra da adięao para numeros de complemento de dez ? 

13. Constnm tabel u s de multiplicaędo para numeros de base 3. 

14. Mulliplique 0111 e 0011 em bindrio. 

15. Escreva um progruma que aceita um niimero decimal com sinal como urna corrente ASCII e imprima sua 
representaęao em complemento de dois em binario, ocial e hexadecimal. 

16. Escreva um programu que aceita iluas seqiićncias de 32 caracteres ASCII contendo Os e Is, cada urna 
representando um niimero binario de 32 bils em complemento de dois. O programu deve imprimir a soma das 
duas seqilencias como unia corrente de 32 caracteres ASCII Oel. 
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Numeros de 
ponto flutuante 

sC 


E m muitos caleulos, a faixa dc ntimeros usados e muito grando. Por cxemplo. urn calculo dc astronomia poderia envolvcr 
a niassa do clćtron, 9 X 10“ 28 gramas. c a massa do Sol, 2 X 10” gramas. urna faixa que ultrapassa Kr*. Esses numeros 
podcriant ser rcpresenuulos por 

(XXXXXXXXXXXXXXXXXXXXXXXXXXXKXHXXX).00(XXXXXXXXXXXXXXXXXXXXXXXX)9 
2(XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX).(XXXXXXXXXXXXXXXXXXXXXXXXXXX) 
c todos ciilculos poderiam ser efetuados manlendo-se 34 dfgitos ii esqucrda do ponto decimal e 28 casas ii direita delc. Isso 
permitiria 62 dfgitos significativos nos resultados. Em um computador bitidrio. poderia ser usada arilmćtica de dupla precisao 
para fomcccr suficiente significAncia. Contudo, a cxatidAo da massa do Sol nao passa de cinco dfgitos significalivos, qucm dirń 
62 dfgitos. Na verdadc, poucas mediędes dc qualquer lipo podcm (ou precisant) ser feitas com precisao de 62 dfgitos 
signilicativos. Embora seja possfvcl tnanter todos os resultados intcrmcdiArios com 62 dfgitos significativos c depois dcscartar 
50 ou 60 deles antes de imprimir o resultado finał, isso seria um des|<crdfcio de tempo e meniória dc CPU. 

O que precisamos ć de um sistenta para representar numeros nos quais a faixa de numeros que podcm ser expressos i 
independente do numero dc dfgitos significativos. Ncstc apćndice, discutircmos tal sistenta. que 6 basendo na notaęSo cientffica 
comumentc usada ent ffsica. qufmica c engenharia. 

B.i Principios do ponto flutuante 

Um modo de separar a faixa da prccisilo 6 cxprcssar numeros na familiar notaęAo cientffica 
n=/X I0 r 

cm quc / 6 denominada a fraęSo, ou nmiitissa. er fum inteiro positivo ou negativo denominado expoenle A versao para 
computador dessa notayao e chamnda ponto flutuante. Alguns cxemplos de ntimeros cxpressos nessa forma sao 

3,14 ■ 0,314 x I0 1 = 3.14 x 10° 

0,(XXXX)l =0,1 X 10 * = 1,0 X 10 * 

1941 =0.1941 X 10* = 1.941 X 10* 

A faixa ć efetivamente determinada pclo mimero de dfgitos no expocntc c u precisao ć detenninada pelo numero de dfgitos na 
fraęao. Como hri mais de urna maneirn de representar um numero dndo, em geral e escolhida urna forma como o padrAo. Para 
invcstigar as propriedades desse tnćtodo cle representar numeros, considere urna representaęAo, R, com urna fraęao de tres 
dfgitos com sinal. na faixa 0.1 £ l/l < I ou zero e um expoente dc dois dfgitos com sinal. A faixa de grandc/a desses numeros 
vai de +0,100 X I0"** 9 a +0,999 x I0 +99 , o que abrange qua.se 199 ordens de grandeza. aindn assim sAo necessarios somentc 
cinco dfgitos e dois sinais para arma/enar um numero. 

Numeros dc ponto flutuante podem ser usados para modelar o sistenta dc numeros reais da malemdtica, embora baju 
algumas dilcrenęas importantes. A Figura U.l apresenta um csqucma dclibcradamente exagerado da linha de numeros reais. 
Essa linha estd dividida em sclc rcgióes: 

I. Numeros negalivos grandes menores que —0,999 X 10 w . 

2 . Ntimeros ncgativos entre -0.999 X 10 w e —0,1(X) X 10 

3. Ntimeros negativos pequenos com grandezas menores que 0,100 X 10 w . 

4. Zero. 

s. Numeros positivos pctjucnos com grandezas menores quc 0.100 X 10 qQ . 
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6. Nihneros pusitivo» enirc 0,1(X) X 10 M c 0,999- x IO 9 '*. 

7. Numeros pusilivos graiules inaiores que 0,999 X IO 99 . 

Unia difcrenęa importante entre o conjuntn de numeros que podem ser representudos por fraęóes de tres dlgitos 
e expoenles ile dois dtgitos e os numeros reais 6 que os primeiros nio poiłem ser usados para expressar quaisquer 
numeros nas regióes 1. .1, 5 ou 7. Sc o resultado de um operowo aritmćlicu for um niimcro nas regióes 1 ou 1 — 
por exemplo, I0 60 > IO 60 = 10* 10 — oconrerś um erro de cxcesso e u respostn serd inconrcla. A razao disso ć a 
nalurezu finitu da representaęSo para numeros e Ł ineviiavel. Dc modo semelhante, um resultado nas regióes 3 ou 5 
tambein nao pode set cxpresso. Essa situaęao e denominada crro de falta. O erro de falla e mcnos serio quc o erro 
de extcssu, porque 0 quase sempre e urna aproximaę3o satisfatória para numeros nas regióes 3 e 5. Um saldo na 
conta corrcntc de 10 reais nao ć rauito mellior que um saldo de 0. 

Outru dileren^a importami: entre numeros de ponto flutuanlc e numeros reais e sua densidade. finlre quaisquer 
numeros reais, i e y . lid oulro numero real, nao imporlando quao próximo x esteja de y. Hssa propriedade vem do 
fato de que, pani quaisquer numeros reais distintos, x e y, z - U + yV2 i um numero real entre eles. Os ntimeros 
reais furmani um coutfnuo. 

Ao contrdrio, numeros de ponto flutuante nao Ibrmam um contfnuo. Uxatamentc 179.100 numeros positivos 
pudem ser expressos no sistema de cineo dlgitos e dois sinais usados aeima, 179. KM) numeros negativos e 0 (que 
pode ser espresso de yiirios modus), o que dd um total de 358.201 numeros. Do numero iufinito de numeros reais 
entre -I0 fl "° e +0,999 X IO 99 , somente 358.201 deles pudem ser espeeifteados por essa nolaęao. Fles sdo 
simboli/ados pelos pontinhos na Figura B.l. Ć hem possfvel que o resultado de um cdlculo seja um dos outros 
numeros, ainda quc esteja na regiao 2 ou 6. For exemplo, +0,100 X I0 ł dividido por 3 nao pode ser espresso 
exatumenle em nosso sistema de representaęao. Se o resultado de um cdlculo nao pode ser expresso na 
representuędo de numeros etn uso, o óbvio a fazer e usar o numero niais próximo que puder ser espresso. Esse 
proces mi e denominudo urredondainento. 

O espaęo entre numeros adjacentes que podem ser expressos nao ć constante em loda a regiao 2 ou 6. A 
sepurayao entre i 0,998 X I0 99 e +0.999 X 10 99 e muilo maior que a separaydo entre +0,998 X 10° e +0,999 X 
10° ( oniudo, quando a separaęao entre um numero e seu sucessor ć expressa como unia percentagem daquele 
numero, nao hd yariayao sistemdtica em loda a regiao 2 ou 6. F.m outras palavras, o erro rclativo introduzido pelo 
arredondamenlo e aprosimadamente o mesmo para numeros pei|uenos e para mimeios grandes. 

F.mhora a disuissao prccedente tenha siilo em temios de um sistema de representaędo cum urna ffaęao de tres 
digilos e um expoente de dois dtgitos, as conclusóes a que chegamos tamboru sdo validas para outros sistemas de 
represenlaydo Mudai o numero de dlgitos na mantissa ou no expoente apenas desloca as fronteiras das regióes 2 e fi e 
allera o numero de pnntos que podem ser expressos nas respectivas regióes. Aumcnlar o numero de dlgitos na mantissa 
aumenta u densidade de pontos e, portanto. melhota a precisfto das aproximaęóes. Aumenlur o numero de dlgitos no 
cxpoente aumenta o tunuinho das regióes 2 e 6 e redli/ as regióes I, 3, 5 e 7. A Tabelu U l moslra as fronteiras 
aproximudus da regiao 0 para numeros decimais de ponto llutuante para yiirios tumanhos dc mantissa e cxpucnie. 


Iniura B.l 

A hnha de mimems reais 
pode ser divtdtda em sete 
regióes _ 


3 5 

Fulta Fallu 

neyallvu posltlva 

1 2 \ 4 6 7 

txcesso Numeros nogativo8 Zero Numeros poslllvos quo Exce&so 

napatlyo que pod6m ser enpressos s j y podam soi ercpres&os posillyo 

-10 0 10 ’“ 10 M 


laimia b.i Os ltmites interior e superior aproximados de numeros decimais de 
porno flutuante (nao-normaltzados) que podem ser expressos. 


[Digitos na mantissa 1 Digitos no espoente 1 Limite inlerior 1 Limite superior 1 

3 

1 

1 0 ,J 

10“ 

3 

2 

IO® 3 

10 88 

3 

3 

io® 02 

IO 889 

3 

4 

10-ioom 

10 8998 

4 

1 

io- 13 

10® 

4 

2 

ia 103 

IO 08 

4 

3 

,0-1003 

,0030 

4 

4 

io- 10003 

10 wuu 

5 

1 

10 14 

10° 

S 

2 

io-® 4 

,0 88 

S 

3 

,0-1004 

IO 898 

5 

4 

,0-10004 

to 8888 

10 

3 

10®° 8 

IO 898 

20 

3 

10'®“ 

IO 988 
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Uma variaęSo dessa iepresentaęSo e usada em computadores. Por questao de eficifincia, a exponeuciaę3o e de 
basc 2,4. 8 ou 16 em vez dc 10 e, nesse caso, a mantissa consiste em uma seqtl6ncia dc dfgitos bindrios, de base 4. 
octais ou hexadecimais. Se o dfgilo da extrema esquerda for zero, todos os dfgitos podent ser desloeados uma casa 
para a esquerda e o expoente reduzido dc 1, sem alterar o valor do inimero (exceto quando ha excesso). Uma 
mantissa que tern um dfgito nao-zcro na extretna esquerda t dcnominada normalizada. 

Numeros normalizados em geraf sao prefcrfvcis aos nao-normalizados. porque lid somcnte uma forma 
normalizada, ao passo que hd muitas 1'ormas nao-normalizadas. Na Figura B.2, sao dados cxemplos dc numeros de 
ponto flutuante normalizados para duas bases de exponeneiaęao. Nesses cxemplos sao mostrados uma mantissa de 16 
bits (ineluindo o bit de sinal) e um expoente de 7 bits usando notaęao de excesso 64.0 ponto-raiz ou ponto-base (radix 
point. vfrgula aritmetica) estd d esquerda do bil da extrema esquerda da mantissa — isto e, a direita do expoente. 

B .2 Padrao de ponto flutuante IEEE 754 

Ató aproximadamente 1980. cada fabricante de computador tinha seu próprio formatu de ponto flutuante. Nao 
6 preciso dizer que todos eram diferentes. Piór ainda, aiguns deles realnienie efetuavam aritnuStica incorrelamentc 
porque a aritmćtica de ponto flutuante tern algumas sutilezas que nao sao óbvias para o projetista dc hardware mćdio. 

Para corrigir essa situaęao, no finał da dćcada de 1970, o IEEE inslituiu um comitŚ para padronizar a aritmćtica 
de ponto flutuante. A meta nSo era apenas permitir a troca de dados de ponto flutuante entre diferentes 
computadores, mas lambem proporcionar aos projetistas de hardware um modclo comprovadamente correto. O 
trabalho resultou no IEEE Standard 754 (IEEE. 1985). Grandę parte das CPUs de hoje (entre elas. as CPUs Intel. 
SPARC e JVM que estudamos neste livro) tern instruęóes de ponto flutuante que obedecem ao padrao de ponto 
flutuante do IEEE. Diferente de inuitos pad mes, que tendem a ser dćbeis soluęoes de compromisso que nao agradam 
a ninguem, esse padrao nao e mau, em grandę parte porque foi, primariamente, o trabalho de uma tinica pessoa, o 
professor de matemrttica dc Berkeley. William Kahan. O padrao serd descrito no restante desta se<,ao. 

O padrao definc Ir6s formatos: precisao simplcs (32 bits), precisao dupla (64 bits) e precisao esiendida (80 bits). 
O formatu de precisao estendida prelende reduzirerros de arredondamento. E usado primariamente dentro de imidades 
de aritmćtica de ponto flutuante, portanto nao vamos discuti-lo mais. Ambos os formatos dc precisao simples e de prccisiio 
dupla usam basc 2 para mantlssas e notaęio de excesso para expocnlcs. Os formatos s3o mostrados na Figura B.3. 

Ambos comeęam com um bit de sinal para o numeru como urn todo, 0 para positivo c I para ncgalivo. Em 
seguida vem o expocntc, quc usa excesso ile 127 para precisao simples c cxcesso de 1023 para precisao dupla. Os 
expoentes mfnimo (0) e m&timos (255 e 2047) nao sao usados para numeros normalizados; eles tćm usos especiais 
como descrevemos logo adianle. Por fim, teinos as manlissas. 23 e 52 bits, respectivamente. 

Uma mantissa normalizada cotneęa com um ponto binario seguido por um bit I e. entiio. o resto da mantissa. 
Adotando uma prńtica que comcęou com o PDP-11, os autores do padrlo perccbcram que o bit I principal da man¬ 
tissa nSo tern de ser armazenado, uma vez que ć possfvel admilir que ele estó presente. Por conscqU6ncia. o padrao 
definc a mantissa dc mancira ligeiramente diferente da usual. Ela consiste em um bit 1 implfcito, um ponto binśrio 
impHcito e entio 23 ou 52 bits arbitrarios. Se todos os 23 ou 52 bits da mantissa forem 0. a mantissa tern o valor 
numćrico 1,0; se todos esses bils forem 1, a mantissa e, numericamente. um pouco menor que 2.0. Para evitar 
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Fbrmatos de ponto flutuante 
padrao 1LKE. (a) Precis&o 
sltnples. |b) Precisao dupla. 



confuaflo com unia fraęao ctmvencional, a combinaęao do I implfcito com o ponto binśrio implfcito e com os 23 ou 
52 bits cxplfcitos e denominada um signiiicando cm vcz dc unia fraęao ou mantissa. Todos os mimeros normaliza- 
dos tern um signillcando, s, na faixa ł < s < 2. 

As caraclerfsiicas numericus dos minteros de ponto flutuante padrtlo IEEE sao duduś nu Tabela B.2. Como 
exemplos, consideie os numeros 0,5, I, e 1,5 em formulo nortnalizado de precisao tinica. Eles sao representados em 
hexadecimal como 3FOOOOOO, 3F800000, c 3FCOOOOO, rcspectivamente. 

Um dos problemas tradicionais dos numeros de ponto flutuante e como Udar com faltas, excessos e mimeros 
nao-inicializados. O padrao IEEE uata desses problemas explicitamente, tomando emprestada sua abordagem em 
parte do CDC 6600. Alem dc mimeros normalizados, o padrSo tein outros quatro tipos nttmericos, descritos adiante 
e mostrados na Figura B.4. 

Surge um problemu tjuando o resultado de um calculo lent urna grandeza ntenor tjue o inenor mimero de ponto 
flutuante nortnalizado que pode ser rcpresentado nesse sistema. Antes, quase todos os hurdwares adolavam urna de 
duas abordagens: apenas ajustar o resultado para zero c continuar ou causar um erro de lalta de ponto flutuante. 
Nenhuma delas ć realnienie satisfalória, portanto o IEEE inventou numeros desuormalizados. Esses mimeros tein 
um cxpoentc 0 e a fraęao dadu pelos 23 ou 52 bits seguintes. (3 bil 1 implfcito ii esquerdu do ponto bindrio agora se 
tomu um 0. Niimcros desnormalizados pudem ser distinguidos dos normulizados porque niio e permitido que os 
normalizados tenham um expoente de 0. 

O menor mimero nortnalizado de precisao sintples tern um 1 como expoente e 0 como fraęao c representa 
1,0 x 2 l26 . O maior numeru desnormalizado (em um 0 como expoente e só 1 na mantissa c representa 
aproximadumente (),y‘J9 c J999 X 2 l26 , que e quase u mesma coisa. Deve-se notar, entretunto, que esse mimero tein 
apenas 23 bits sigmlicativos, conlra 24 para todos os mimeros normalizados. 

A incdida que calculos reduzetn ainda muis esse resultado. o expocnte continua firnie em 0, mas alguns dos 
primeiros -bits da mantissa se lornam /.eros, o quc reduz o valor, hem como o mimero de bits signiftcalivos na 
mantissa. O ntenor mimero nao-zero desnormalizado consiste ent 1 no bit da extreinu direita, sendo o restante 0. O 
expoente representa 2 126 e a fraęao representa 2 2 ’, portanto o valor e 2‘ W9 . Esse csqueina proporciona urn erro de 


ruiiaia h z Caracteristicas dos numeros de ponto fluntante padrao IEEE. 


[i Item 

Precisao simples 

1 Precisao dupla t, 

Bits de sinal 

1 

i 

Bits de eicpoente 

8 

u 

Bits na mantissa 

23 

62 

Bits, total 

32 

64 

Sistema de expoente 

Excesso 127 

Excesso 1023 

Pauca de expoente 

-126 a+127 

-1022 a+1023 

Menor mimero nortnalizado 

2-we 

2*1022 

Maior mimero nortnalizado 

aprox. 2 128 

aprox. 2 IU24 

Paixa decimal 

aprox. 10 3B a 10 38 

aprox. 10 :4QB a 10 308 

Menor mimero desnormalizado 

aprox. 10‘ 48 

aprox. 10 324 



Bil do tinal 
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falta gradual, ponjue renuncia & signilicaneia cm vez de saltar para 0 quando o rcsultadu nao puder ser expresso 
como urn numeru normalizado. 

Ud doLs zeros presenles nesse esquema. positivo e negativo. dclerminados pelo bit de sinal. Ambos tein urn 
cxpoente 0 e unia mantissa 0. Tambem aqui o bil d esquerda do ponto bindrio 6 implicitamente 0 cm vez de I. 

O excesso nio pode ser tratado graciosamente. Ndo sobrou nenłiuma combinaęan de bits. Em vez disso, ć dada 
urna representaęao especial para iniinilo, que consiste em urn expoente lodo com 1s (nao permitido para niimeros 
uao-normalizados) e urna fraęao 0. Esse ndmero pode ser usado como urn operando e se cnmporta de acurdo com 
as regras usuais da matematica para infinito. Por exemplo, inlinito mais qualquer coisa ć infinito. e qualquer numeru 
finito dividido por infinito ć zero. De modo semelhante, qualqucr numeru Unitu dmdido pur zeru dd infinito. 

ii infinito dividido por infinito? O rcsultadu e indefinido. Para tratar esse caso ha outro formatu, denominadu 
Na\ (Not a Number — nao ć um numeru). Ele tambćm pode ser usado como urn operando com resultados 
prcvisfveis. 

Problemas 

1. Convcrta os seguinte mimeros para formato IEEE de precisao simples. D6 os resultados como oito dfgitos 
hexadecimais. 

a. 9 

b. 5/32 

c. -5/32 

d. 6.125 

2. Converta os seguinte mimeros de ponto flutuante IEEE de precis5o simples de hexadecimais para decimais: 

a. 42E480(K)H 

b. 3F880000H 

c. ()()8()()(X)0H 

d. C7F(X)00()H 

3. O formato dos mimeros de ponto flutuante dc precisao tinica no 370 tern um expocnte de 7 bits no sistema 
excesso de 64 e urna mantissa quc contćm 24 bits mais um bit dc sinal. com o ponto bindrio na extremidade 
esquerda da mantissa. A base para cxponenciaęao ć 16. A ordein dos campos e: bit de sinal. expocnte, mantis¬ 
sa. Expres.se o mimem 7/64 como um numeru normalizado nesse sistema em hexadecimal. 

4. Os seguintes mimeros bindrios de ponto flutuante consistcm cm um bit de sinal. um excesso de 64. expoente 
de base 2 e urna mantissa de 16 bits. Normalize-os. 

a. 0 lOOO(HK) 000101()10000<M)01 

b. 0 0III1II (HKH)OOI lilii 1111 

c. 0 1000011 l<XXXKXXXXKKX)000 

5. Para somar dois mimeros de ponto flutuante voce precisa ajustar os expoentes (deslocando a mantissa) para que 
fiqucm iguais. Entao vocS pode somar as mantissas e normalizar o resultado, se for necessdrio. Sonie os niimeros 
IEEE dc precisao tinica 3EEOOOOOH e 3P800000H c cxpres.se o resultado normnlizado cm hexadecimal. 

6. A empresa Tiglitwad Computer Company decidiu lanęar urna mdquina com niimeros de ponto flutuante dc 16 
bits. O Modelu 0.(X)l tem um formato de ponto flutuante com um bit de sinal. expoente excesso de 64 de 7 
bits e mantissa de 8 bits. O Modelu 0.002 tętn um bit de sinal, expuente excesso 16 de 5 bits e mantissa de 10 
bits. Ambos usam exponcnciaęSo base 2. Quais sdo o menor e o maior mimeros positivos normalizados em 
ambos os modelos? Quantos dfgitos decimais de precisao cada um tern, aproximadamente? Voc6 compraria 
algum desses computadores? 

7. Ha urna situaęao na qual unia operaęao com dois niimeros de ponto flutuante pode causar unia reduęSo driis- 
tica no ntimero dc bits significativos no resultado. Qual ć essa situaęao? 

8. Alguns chips de ponto flutuante tem unia instruęSo de raiz quadrada embutida. Um algorilmo possfvel ć um 
algoritmo ilcrativo (por cxemplo. Newton-Raphson). Algoritmos iterativos precisam de urna aproximaęSo ini- 
cial e entao a melboram conslantementc. Como voc3 pode obter unia raiz quadrada aproximada de um ntimero 
dc ponto flutuante? 

9 . Escreva um procedimento para somar dois mimeros de ponto flutuante dc precisao simples padriio IEEE. Cada 
ntimero ć representado por um vetor booleano dc 32 elementos. 

10. Escreva um procedimento para somar dois mimeros de ponto flutuante de precisao simples quc usam base 16 
para o expoente e base 2 para a mantissa, mas nao tem um bit l impllcilo a csqucrda do ponto bindrio. Um 

numero normalizado tem 0(X)l. 0010.1111 como seu os 4 bits da extrema esqucrda da mantissa. mas nao 

0000. Um numero ć normalizado deslocando-se a mantissa 4 bits para a esqucrda c subtraindo I do expoetite. 
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Programaęao 
em linguagem 
de montagem 

Uvcrt Wattel 
Vrije lJniversiteit 
Ainstcrda. Holaada 


T tu.lt i contputudor leni unia ISA (Instruclion Set Arehitecture — Arquitetura do Conjunto de Instruęun), que <5 um 
conjunto ile registradores, inslruęócs e outras caraclerislicas vis(veis para sous programadores de baixo miel. Essa ISA 
cnsluina ser dcnominada linguagem de maquina. embora esse lenno nao seja dc todo exato. Um programu nesse miel 
dc abslruęao c urna łuuga lisia dc mimcros hinarios, um por inslruęau, quc inliirma quais instruęóes exccutar c ipiais sao sens 
operandos. Prograntar com ntimeros binarios e inuito diffcil. portanlo. todas as maipiinas lem urna linguagem de montagem. 
urna representuęao >imbólica da arquiteiura do conjunto de msiruęoes com nomes simbdlicos como AOD, SUB e MUL. em vez 
dc mimcros bindrios. Esic apendice e urn tutorial sobie programaęao cm linguagem dc montagem para urna mdquina espccili- 
ca, a Intel 8088, que era usada no IBM PC originul e foi a basc a partir da qual se desemolieu o moderno Pentium. O apendi- 
cc lambćm abrange a utili/aęito dc alguinas ferrumentas que podcm ser dcscarregadas para ajudar a aprender programaęao cm 
linguagem dc montagem. 

A linalidudc desie apendice nao 6 produ/ir rclinados programadores cm linguagem de monlagcm, mas ajudar o leitor a 
aprender arquiiclura de compuladorcs por mcio dc cxperiencia pralka. Por cssu razSo. escolhemos urna maquina simples — a 
Intel 8088 como cxemplo dc (rabalho. Entboru boje as 8088s scjain raramenic cncontradas, lodu Pentium i capa/ de cxe- 
eufar progrumus 8088, portanlo as lięóes aprendidus uqui ainda sito aplicaveis as tnśquinas modemas. Alem do mais, grandę 
parte das instruędes dc nliclco do Pentium refere-se lis mesinas que as do 8088, só que usam registradores de .12 bits em vez 
dc registradores de 16 bits Assim, este apendice tambem pode ser considerado urna introduędo leve & programaęao cm lingua¬ 
gem de moniugciu ilo Pentium. 

Para poder prograntar qualquer inaquina em linguagem de monlagem, o programador lem de couhecer detalhadantenie a 
arquiietura do conjunto dc instruęftes da maquina. De acordo com isso, as Seęóes C. I a C.4 desie apendice sao dedicadas a 
arquitetura do 8088. sua organizuęao de memdria, modos de endereęumcnto e instruęóes. A Seę&o C.5 discute o assembler, que 
e usado neste apendice e esni disponfiel gratuitamente, cotno descreveremos adianle. A notaęao entpregada neste apendice e a 
usada por esse assembler. Outros assentblers usam notaęóes difcrcntcs, portanlo os leitores que jń estao fainiliarizados com 
a programaęao de monlagem do 8088 devem ficar atentos ils diferenęas. A Seęao C.6 discute urna ferramenla interpretado- 
ra/rasireadora/dcpuradora quc pode ser descarregada para ajudar o principiante a depurar programas. A Seęao C.7 descrevc a 
instalaęao das fcrramenias e como conteęar. A Seęao C.8 contem programas, exemplos, exercicios e soluęóes. A Seędo C.9 dis¬ 
cute ipicslócs dc implemenlaęao, bugs e limilaęócs do materiał. 

c i Visao geral 

Iniciarcmos nosso passeio pela programaęao em linguagem dc montagem fa/eiulo alguns comcntarios sobre linguagem 
dc montagem c dando, em seguida, um pequeno excmplo para ilusirri-la. 

C.1.1 Linguagem de montagem 

Todo assembler usa mncmónico.s, isto ć, palavras curtas tais como ADD, SUB e MUL para instruęóes de mńquina como 
somur, subtruir e multiplicur para que liquent mais fdceis de lemhrar. Alćm disso, assemblers permitem a utilizuęao de nomes 
simbólicos para couslaittes c rótulos para indicar endereęos de instruę&o e memória. Adcmais. grandę parte dos assemblers 
supona certo numeru dc pscudo-instruęóes. que nSo sao traduzidas para instruęóes ISA. mas que sao cotnandos para o assem¬ 
bler que direcionam o processo de monlagem. 
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Figura C.1 

(a) Um programa em 
linguagem de montagem 
|b| A tela correspondente do 
rastreador. 


Quando um programa em linguagem de montagem ć alimentado cm um programa denominado assembler, 
esle converte o programa em um programa bindrio adcquado para a exeeuędo propriamente dita. Entao. csse pro- 
grama pode ser cxecutado no hardware em questdo. Contudo, quaudo novatos comeęam a programar em linguagem 
dc montagem. costumam coineter erros. e o programa bindrio apenas pdra, sem ter nenhuma pista sobre o que deu 
errado. Para facilitar a vida dos novatos, ds vezes 6 possfvel executar o programa bindrio nao no hardware propria¬ 
mente dito, mas em um simulador, que exccuta unia instruęao por vez e apresenta urna imagem detalhada do que 
esta fazendo. Desse modo. a depuraędo lica muilo mais fźcil. Programas executados em um simulador rodam muito 
lentamente, e claro. porćm, quando a meta 6 aprender programa em linguagem de montagem. e nao executar um 
job dc produęao, essa perda de velocidade nao 6 importante. Este apendice i baseado em um coujunto de ferramen- 
tas que inclui um simulador como esse, denominado intenpretador ou rastreador. porque ele interpreta e acom- 
panha a exccuęio do programa bindrio passo a passo, durante a execuęIo. Fsses termos "simulador”. “interprela- 
dor” e “rastreador” serdo utilizados indilerentemente nesle apendice. Em geral, quando estivennos falando apenas 
sobre a exccuęao de um programa, direntos “interpretador" e. quando estivcnnos falando sobre a utilizaęao dele 
como urna ferramenta de depuraędo. diremos “rastreador”, mas ć semprc o mesmo programa. 

C.1.2 Um pequeno programa em linguagem de montagem 

Para lontar algutnas dessas idćias abstratas um pouco mais concretas, considere o programa e a imagem do 
rastreador da Figura C.l. Unia imagem da tela do rastreador e dada na Figura C.l. A Figura C.l (a) mostra um pro- 
grama simples em linguagem de montagem para o 8088. Os numeros após os pontos de exclamaę9o sao os niime- 
ros das linhas da fontc. para facilitar a referenda ds partes do programa. Urna cópia desse programa pode ser eneon- 
trada no materiał que acompanha este livro, no diretório emmples no arquivo-fonle HlhWrld.s, Esse pYograma de 
montagem, como todos os programas de montagem discutidos neste apendice, tein o sufixo ,v, que indica que ele ć 
um programa-fonte de linguagem de montagem. A tela do rastreador, mostrada na Figura C-I(b). contćm sete jane- 
las, cada urna com informaęocs diferentes sobre o estado do programa bindrio que estd sendo esecutado. 

Agora, vamos examinar brevemente as sete janelas da Figura C. I (b). Na parte de cima, ha tr£< janelas. duas maio- 
res e unia tnenor no meio. A janela na parte superior esquerda mostra o conteudo do processador. que eonsiste nos valo- 
res correntcs dos registradores de segmenlos, CS. DS. SS e ES. dos registradores aritmeticos. AH. AL. AX, e de outros. 

A janela do meio nessa linha de cima contem a pilha. urna drea de memriria usada para valores temporarios. 

A janela a direita nessa parte superior possui um fragniento do programa em linguagem de montagem e a seta 
indica qua1 instruęao esta sendo executada no momento em questio. A medida que o programu e exccutado. a ins- 
Inięao corrcnte muda e a seta sc move para apontd-la. A foręa do rastreador e quc. acionando a tecia de retomo 
(Enter, nos teclados de PCs), urna unica instruęao ć exeeutada e todas as janelas sao ntualizadas. o que possibilila 
executar o programa em ciinicra lenta. 

Abaixo da janela d esquerda hd outra janela quc contćni a pilha de chamadns de snh-rotina, quc. em nosso 
exemplo. estd vazia. Abaixo dela csldo comandos para o próprio rastreador. A esquerda dessas duas janelas ha urna 
janela para enlrada, safda e mensagens de erro. 

Enibaixo dessas janelas hd outra que mostra urna porędo da memńria. Essas janelas serflo iliscutidas com mais 
detallies mais d frente, mas a idćia bdsica deve estar clara: o rastreador mostra o programa-fonte, os registradores 
da mdquina e urna boa qunntidade de informaędcs sobre o estado do programa que estd cm exccuędn. A medida que 
cada instruęślo d cxccutada, a informaędo & atualizada, o que perniite ao usudrio ver. com grandę detalhe. o que o 
programa estd fazendo. 


EXI T » I 
WRITE .4 
BTDOUT -I 
SEĆT TEXr 

MOV CX.do hw 
PUSH CX 
PUSH hw 
PUSH . STDOUT 
PUSH WRITE 
SYS 

ADD SP. II 
SUB CX,AX 
PUSH CX 
PUSH _EXIT 


CS 00 DS-SS-ES 002 
AHrOO AL Oc AX: 12 

BM:00 BI 00 BX 0 

CH;00 CL:0c CX 12 

DHrOO OL 00 OX 0 

SP 7ld0 SF O D 8 Z C 
BP: 0000 CC - > p • • 
SI 0000 |P:0O0c:PC 
Dl 0000 aUrt -t 7 


MOV CX.U<j-hw 
PUSH CX 
PUSH HW 
PUSH STDOUT 
PU8>i WRITE 
8YS 

ADD SP.0 
SUB CXAX 
PUSH CX 


c.2 0 processador 8088 

Cada processador. irteluindo o 8088. tern um estado interno, no qual mantćm cetlas informaęfles cruciais. Para 
essa finalidade, o processador tern um conjunto de registradores nos quais essas informaęOes podem ser armaze- 


5 



nuiias e processudas. Provavelmente o mais importante deles e o PC (program counter — contador de progra¬ 
mu) que contem a localizaęao de memória, isto e, o endereęo, da próxima instruęao a ser execiilada. lisse registra- 
dor lamberu e denominado IP (Instruction Pointer — pontciro de instruęao). Essa instruęao esta localizada em 
urna parte da memória principal denominada segmenlo de eódigo. A memória principal no 8088 pode ter ate mu 
pouco mais de I MH de tamanho, mas o segmento de eódigo corrente tern apenas 64 KB. O registrador CS na Figura 
C.l intormu ornie o segmento de eódigo de 64 KB comeęu dentro da memória de 1 MB. Urn novo segmento dc 
eódigo pode sei ativadu pela simples imidanęa do valor no registrador CS. De modo semclhantc, tamhćm ha urn 
segmento de dados de 64 KB, que informa onde os dados eomeęam. Na Figura C. I sua origein ć dada pelo regis¬ 
trador DS, i|uc tambem pode ser aiterado conforine neeessario para accssur dados fora do segmento de dados cor¬ 
rente. Os registradores CS e DS sao necessśrios porque o 8088 tern regisuadores de 16 bits, portanto eles nao podem 
conter, direlamente, os endereęos de 20 bits necessdrios para refereneiar loda a memória de I MB. E por isso que 
os registradores de segmentos de dados e de eódigo foram introduzidos. 

Os outros registradores contem dados ou ponteiros para ilados na memória principal. Em programas em lin- 
guagem ile montagem, esses registradores podem ser aeessados diretamente. A parte desses registradores, o proces- 
sador tambem contem todo o equipamento necessdrio para execular as instruęóes, mas essas partes estao dispont- 
veis para o programador somenle por meio de instmęfies. 


C.2.1 O ciclo do processador 

A operaęao do 8088 (e de todos os outios computadores) consiste em exeeutur instruęóes, urna após u outra. 
A execuęao de unia uniea instruęao pode ser subdividida nas seguintes etapas: 

1. Buscar a instruęao na memória no segmento de eódigo usando PC, 

2 . Incrementar o contador de programu. 

3. Decoditicar a instruęao buscada. 

4 . Buscar os dados neeessarios na memória e/ou nos registradores do processador. 

s. Executar a instruęao. 

e. Armazenar os resultados da instruęao na memória e/ou registradores. 

7. Voltar ii etapa 1 para iniciar a instruęao seguinte. 

A execuęao de urna instruęao se parece um pouco eom um programa muito pequeno. Na verdade, algumas 
miiquinas realmente tern um pequcnn programa, denominado microprograma. para executar suas instruęóes. Os 
microprogramas siło dcscritos detalhadamente no Capftulo 4. 

Do ponto de vista de um programailor em linguagem de montagem, o 8088 tern um conjunto de 14 registra¬ 
dores. Esses registradores sao, de certo modo, o bloco de rascunho onde as instruęóes operam, e estao em constan- 
le uso, embora os resultados neles armazenados sejam muito yol&eis. A Figura C.2 da urna visao gerat desses 14 
registradores. E claro que essa figura e a janela de registradores do rastreador da Figura C.l s3o muito semelhantes 
porque elas representam a mesma informaęao. 

Os registradores 8088 tern 16 bits de largura. Nao cxistem dois registradores que sejam eompletumente equi- 
valentes em termos tuncionais. porem alguns deles eompartilham certas caracteristicus, portanto sao divididos em 
gnipos na Figura C.2. Agora, vamos discutir os diferentes grupos. 


Fidura C.2 

Os registradores 8088. 


Regisuadores gerais 
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Pontelro e fndice 
Ponteiro da pllha 
Pontelro de basa 


Inriice de tonie 
Indice de deslino 


Regisuadores de s 

Segmento de eódigo 


Segmento de dados 
Segmento de pllha 


Segmento extra 


Codigos de condlęóo 
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C.2.2 Os registradores gerais 

Os registradores do primciro grupo, AX. BX, CX e DX. sAo os registradores gerais () primeiro rcgislrador 
desse grupo. AX. e denominado o rcgislrador acumulador. Ele ć osado para coletar rcsultados de computaęOes e 
ć o alvo de muitas das instruęóes. Embora cada um dos registradores possa cxecutar grandę ijiimitidadc de tarelas, 
cm nlgumas instruęóes esse AX e o destino implfcito, por esemplo. na multiplicaęao. 

O segundo registrador desse grupo ć o BX. o rcgislrador de base. Para muitas-finalidndes o BX p<xle ser usado 
da ntesma maneira que o AX. mas ele tern um poder tjuc o AX nAo possui. ił possfvcl colocar um endereęo de memó- 
ria cm BX e entiio exccular urna inslruęao cujo operando vcm do endereęo de memória contido ern BX. Em oulms 
palavrus, BX pode conter um ponteiro para u memória, AX nao. Para moslrar isso, comparamos duas instruęóes. Em 
pritneiro lugar. temos 
MOV AX,BX 

que copia para AX o contcudo de BX. Em segundo lugar, temos 
MOV AX,(BX) 

que copia para AX o contcudo da palavra de memória cujo endereęo estó conlido em BX. No piimeiro cxemplo, BX 
contćm o operando fonte; no segundo, ele aponla para o operando fontc. lim ambos os excmplos, notę qtic a instru¬ 
ęAo MOV tern um operando fonte e um destino, c que o destino estd escrito antes da fonte. 

O próxinto registrador gcral ć CX. o registrador dc contadorcs. Alein de reali/ar muitas outras tarefas. esse 
registrador ć usado especificamentc para conter contadorcs para laęos. Ele ć automaticamcnte decrementado na ins¬ 
lruęao LOOP. c os laęos gcralmcnte sao encerrados quando CX chcga a zero. 

O quarto registrador do giupo geral e DX. o registrador de dados. Ele e usado juntamente com AX em instru- 
ęóes de comprimento de palavra dupla (isto ć, 32 bits). Nessc caso, DX contćm os 16 bits de ordem alta c AX pos- 
sui os 16 bits dc ordem baixa. Os inteiros dc 32 bits costumam ser indicados pelo termo longo. O termo duplo ć 
normalnienie reservado para valorcs dc ponto (lutuantc de 64 bits, embora hli quem use “duplo" para inteiros de 32 
bits. Nesse tutorial, nAo liavcrA nenhuma confusAo porquc nao discutiremos numeros dc ponto fluluante. 

Todos esses registradores gerais podem ser considerados como um registrador de 16 bits ou como um par dc 
registradores de 8 bits difercnlcs. Desse modo. o 8088 tern exatamcnlc oito registradores diferentes de 8 bits. que 
podem ser usados em instntęóes de bytc e de caractcrcs. Nenhum dos outros registradores pode ser dhridido cm 
metades de 8 bits. Algumas instruęóes tisnm um registrador inteiro, como AX, porem outras instruęóes usatn apctias 
metade de um registrador, como AL ou AH. Em gcral, instruęóes que efeluam arilmćtica usam os registradores com* 
plctos de 16 bits, mas inslruęoes que lidutn com caracteres em geral usam os registradores de 8 bits. Todavia, ć 
importante entender que AL c AH siło apenas nomes para ambas as inclades de AX. Quando AX ć carregado com um 
novo valor, ambos, AL c AH. sAo mudados, rcspccticamcnte. para as metades inferior e superior do mimem dc 16 
bits colocudo cm AX. Para ver como AX, AH c AL interagem, considcre a inslruęao 
MOV AX,258 

que carrega o registrador AX com o valor dccimal 258. Após essa instruęAo. o regisu-ador de bytes AH contćm o valor 
I, e o registrador de bytes AL delćm o mimem 2. Sc essa instruęAo for seguida pela instruęAo de sonia de bytes 
ADDB AH.AL 

entao o registrador dc bytes AH ć inercmentado pelo valor cm AL (2). de modo quc. agora, cle contćm 3. O cfcilo 
dessa aęAo sobre o rcgislrador AX ć que scu valor agora e 770, o que equivale a OUtKMHH I (KMKKKHO em notaęAo 
bindria, ou a 0x03 0x02 em notaęAo hexadecimal. Os registradores de oito bytes de largura sao quase intercambid- 
veis, com a exceęao que AL sempre contćm um dos opetandos na instruęAo MULB. e ć o destino implfcito tlessa opc- 
raęAo. juntamente com AH. DIVB tambćm usa o par AH : AL para o dividendo. O byle ntais baiso do registrador dc 
contador CL pode ser usado para conter o numero de ciclos em instruęóes de deslocamenlo e rolaęao. 

A SeęAo C.8, exemplo 2, mostra algumas das pmpriedades dos registradores gerais por meio de umn discus- 
sao do programa GenReg.s. 

C.2.3 Registradores de ponteiros 

O segundo grupo de registradores consiste nos registradores de ponteiros e (ndices. O registrador mais 
importante desse grupo ć o ponteiro de pillia. que ć denotado por SP. Pillias sao importtinlcs na maioria das lin- 
guagens de programaęAo. A pillia ć um segmenlo dc memória que contćm ccrtas infonnaęócs de contcxlo sobre o 
programa em execuęAo. Em gcral. quaudo um proccdimcnto ć chainado, patie da pillia ć resenada para conter as 
variAvcis locais do procediinento, o endereęo para onde retomar quando o procedimento estivet conclufdo e outras 
informaęóes de controlc. A poręAo da pillia rclaliva a um procedimento ć denominada scu qumlro de pilha. Quando 
um procedimento chamado buscti outro procedimento. um quadro de pillia adicional ć alocado. normalmente logo 
abaixo do quadro corrente. Chamadas adicionais alocam quadros de pilha udicionais abuixo dos correntes. Se bem 
que nao seja obrigatório. pillias quase sempre crcscem para baixo. de endereęos altos para cndereęos baixos. NAo 
obstanie, o endereęo numerico mais baixo ocupado na pilha e sempre denominado o topo da pilha. 

Alćni de utilizadas para conter variaveis locais. pilhas tambćm podem conter rcsultados temporńrios. () 8088 
tent urna instruęAo, PUSH. que coloca urna palasra dc 16 bits no topo da pilha. Essa instruęAo primeiro dccrcmen- 
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la SP de 2, eiuiu armazcna seu operando no endereęo c|ue SP estii aponlando agora. De modo semelhante, a instru- 
ęSo POP retiru unia palavra de 16 bils do topo da pilha buscando o valor no topo da pilha e eniao inerementando 
SP de 2. O tcgislrudot SP aponta para o topo da pilha e ć modificado por instruęóes PUSH, POP e CALL, sendo 
decremcntado por PUSH. incrementado por POP e decrementado por CALL. 

O piiuiinn registrador ncssc grupo e BP. o registrador de base Geralmentc, ele contem um endereęo na pilha. 
Enquuulo SP lemprc uponla para o (opo da pilha. BP pode apontar para quulquer localiziięiio deniro da pilha. Na 
piiticu, unia utilizuęilo coniuni para BP e apontar para o inicio do quadro de pilha do procedimento corrente, de 
modo a Ikar mais facil achar as vuriuveis locais do proccdimenio. Assim, BP uponla para u parte de baixo do qua- 
dro de pilha correnk (a palavra de quadro de pilha que leni o endereęo nuinerico mais alto) e SP aponta para o topo 
(u palavra de quudro de pilha corrente que tern o endereęo nuinćrico mais baixo) Assim, o quudro de pilha corren- 
le 6 delimilado por BP e SP. 

Nesse grupo de registradores ha dois registradores de indices: SI, o fndiee de fonte, c Dl. o indice de destino. 
Hsses registradores eostumtun ser usados em coinbiuaęao com BP para endereęur dados na pilha, ou cum BX para 
calcular os endercęos dc localizaęSo de dados de memória. Ik i samos o Iralamento mais extensivo desses regisira- 
ilores para u seęHo que Iralu de modos de eiulereęamcnlo. 

I Im dos registradores mais importantes, que 6 mu grupo em si, e o ponteiro dc instruęóes. (|ue e o nonie que 
u Intel dd para o contador de programu (PC), lisse registrador nao e endereęado diretamentc pelus instruęóes, tnas 
contćm um endereęo no segmentu de código de programa da memória. O eiclo dc instruęiio do processadnr cotneęu 
pela busca da instruęao apontada pelo PC. Gntao, esse registrador ć incretnenlado antes que o restante da instruęiio 
seja executado. Desse modo, esse contadurde programa aponta para a primeira instruęao após u instruęao corrente 

O registrador de tlug ou registrador dc código de condięao e, na verdadc. um conjunto de registradores de um 
tinico bit. Alguns dos bits sao marcados por instruęóes nritmeiicas e estao relacionados com o rcsuitado, como segue: 

Z - resultado ó zero 

S - resultado ć negativo (bit de sinal) 

V - resultado gerou um excesso 

C - resultado gerou um val-um 

A vai-um auxiliar (vai-um do bit 3) 

P - paridade do resultado 

Outros bits nesse registrador controlam a operaęao dc certos uspectos do processudor. O bit / habilita interrup- 
ęóes. O hit T babi lita modo de raslreamento, que e osado paru dcpuraęao. Por lim, o bit D controla a direęao dus 
opcraęóes de cadciu Nem todos os 16 bits desse registrador de tlag siło utilizados; os quc nao siio, estao ligados 
(eletricumente) u zero. 

Ila quatto registradores no grupo de registradores de scgmcntos. Lembre-se de que a pilha, os dados e os 
códigos dc instruęiio, todos rcsidcm na memória principal, mas, geralmentc, cm purtes diferentes. Os registradores 
de scgmcntos comandum essas purtes dilerentes da memória, que siio denominadas segmentos Hsses registradores 
s^o denominudos CS paru o registrador de segmentos de código, DS para o registrador de segmentos de dados, SS 
para o registrador de scgmcntos de pilha e ES para o registrador de segmentos cxtras. Na muior parte do tempo seus 
vulores nao siio altcrudos. Na pnitica, o segmento de dados e o segmento de pilha u sam a rnesma poręao da memó- 
riu. e os dados łkam na patie interior do segmento e a pilha no topo. Explicaremos mais sobre esses registradores 
nu Seęao C.3.I. 

c.3 Memória e endereęamento 

O 8088 tein unia organizaęSo de memória um tanto dcseleganle por combinar unia memória de l MB com 
registradores de 16 bits. Com urna memória de I MB, sao necessdrios 20 bits para representar um endereęo de 
memória. Por conscqiićncia. e impossfvel armazenar um ponteiro para memória em qualquer dos registradores de 
16 bils. Para conlomar esse problemu, a memória e organizada como segmentos, cuda um deles dc 64 KB. portan- 
to um endereęo dentro de um segmento pode ser representado em 16 bits. Agora. vamos entrar em mais detalhes da 
arqui(etura du memória do 8088. 

c.3.1 Organizaęao da memória e segmentos 

A memória do 8088. que consiste simplesmente em um vctor de byles dc 8 bits endcreęńveis, e usadu paru o 
unuazcnamenio de instruęóes, betu como para o umiazcnumento de dados e para a pilha. Para separur as partes da 
lueuiória quc sao usadus pata essas difereules tlnalidades, o 8088 ttsa segmentos que sao poręóes da memória des- 
tacadas paru ccrtas utilizuęóes. No 8088, tal segmento consiste em 65.536 bytes consecutivns. Hd quatro segmentos: 

1. O segmento de código^ 

2 . O segmento dc dados. 

3. O segmento de pilha. 

4. O segmento extra. 

O segmento de código contćm as instruęóes do programa. O contcudo do registrador PC e senipre interpreta- 
do como um endereęo de memória no segmento de código. Um valor de PC iguul a 0 refere-se ao endereęo mais 
huixu tui segmento de código c nao ao endereęo absoluto de memória zero. O segmento de dados contćm os dados 
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inicializados e nao inicializados para o programa. Quando BX eontćm um ponteiro, elc aponta para esse segmentu 
de dados. O segmento de pi Ilia eontćm varidveis locais e resultados intennediarios passados para a pilha. Kndereęos 
em SP e BP esl3o sempre nesse segmento de pilha. O segmentu extra ć um registradnr de segmentos avulsos que 
pode ser eolocado em qualquer lugar da memória onde seja necessdrio. 

Para cada um dos segmentos existe um registrador de segmentos correspondente: os registradores de 16 hils 
CS, DS, SS e ES. O endereęo de infcio de um segmento e o inteiro de 20 hits sem sinal que ć conslrufdo deslocan- 
do o registrador de segmentos 4 hits para a esquerda e colocandn /eros nas quatro posięóes da extrcma direita. Isso 
significa que os registradores dc segmentos sempre indicam mulliplos de 16, em um espaęo de endereęo de 20 hits. 
O registrador de segmentos aponta para a base do segmento. Endereęos dentro do segmento podem ser construf- 
dos convertendo-sc o valor de 16 bits do registrador de segmentos para seu verdadeiro endereęo de 20 hits. acres 
centando 4 hits zero ao finał, e somando o deslocamcnto a esse resultado. Na verdade, um endereęo absolutu de 
memória ć calcu lado mulliplicando-sc o registrador de segmentos por 16 c entao somando o deslocamcnto ao 
resultado. Porcxcmplo, se DS lor igual a 7, c BX for 12. entao o endereęo indicado por BX ć 7 X 16+ 12 124. 

Hm oulras palavras. o endereęo hinśrio de 20 hits implfcito por DS - 7 ć 0(KK)000(K)()(X)OI I ItKKK). Somar ó des- 
locamento de 16 bits OOOOOOOOOOOOI100 (decimal 12) 3 origem do segmento dii o endereęo dc 20 hits 
00000000000001111100 (decimal 124). 

Para loda referencja 3 memória, um dos registradores de segmentos ć usado para construir o endereęo de 
memória propriamente dito. Se alguma instruęao contiver um endereęo direto sem referĆncia a um registrador. 
entao esse endereęo esta automaticamentc no segmento de dados e DS ć usado para determinar a base do seg 
mento. O endereęo ffsico ć achado somando-se essa base com o endereęo na instruęao. O endereęo ffsieo na 
memória do próximo código de instruęao ć obtido deslocando o conteudo de CS por quatro casas binarias e 
somando o valor do conlador de programa. Em outras palavras, o verdadeiro endereęo de 20 bits implfcito pelo 
registrador CS de 16 bits ć calculado antes e, em seguida, o PC de 16 bits ć somado a ele para formar um ende- 
rcęo absoluto dc memória de 20 bits. 

O segmento de pilha e composto por pa)avras de 2 bytes, portanto o ponteiro de pilha. SP. deve sempre con- 
ter um numero par. A pillni e preenchida dos cndcrcęos altos para os endereęos baixos. Assim. a instruęao PUSH 
diminui o ponteiro de pilha de 2 e entao arma/.ena o operando no endereęo de memória calculado a parlir de SS e 
SP. O comando POP recupera o valor e inerementa SP de 2. Endereęos no segmento de pilha mais baixos que os 
indicados por SP sao considerados livres. Dessc modo, a limpeza da pilha e conscguida simplcsmente auinentarulo 
SP. Na pratica, DS c SS sao sempre iguais. portanto um ponteiro de 16 bits pode ser usado para refcrenciar uma 
vari3vcl no segmento compartilhado dados/pilha. Se DS e SS rossein diferentes, seria prcciso um dćcirno sćlimo bit 
em cada ponteiro para distinguir ponteiros para o segmento de dados de ponteiros para o segmento de pilha. Em 
reUospecto, ter um segmento de pilha separado provavelracnte foi um cno. 

Caso prefira quc os endereęos nos quatro registradores de segmentos fiquem bem distnntcs uns dos outros. 
ent3o os quatro segmentos serflo disjunlos, mas, se a memória disponfvel for restrita, nao ć necessńrio quc sejam 
disjuntos. Após a compilaęao, o tamanho do código de programa ć conhecido. Entao ć eficienlc iniciar os segmen- 
los de dados e pilha no primeiro multiplo de 16 após a ultima instruęao. Isso pressupóe que os segmentos dc códi¬ 
go e dados mmca usarao os mesmos endereęos ffsicos. 

c.3.2 Endereęamento 

Quase toila instruęao precisa de dados. sejam da memória, sejam dos registradores. O 8088 tern uma coleęao 
razoavelmcnte versdtil de modos de endereęamento para dar nomes a esses dados. Muitas instruęóes contem dois 
operandos. geralmente denominados de destino e de fonte. Imagine, por exemplo, a inslnięiio de cópia, ou a ins- 
truęao de adięiio: 

MOV AX.BX 
ou 

ADD CX,20 

Nessas instruęóes. o primeiro operando ć de destino e o segundo ć de fonte. (Qual deles vem em primeiro lugar ć 
uma decisao arbitrśria; tamhćm poderfamos ter invertido as posięóes.) Nem ć preciso dizer que, nesse caso, o des- 
tino deve ser um vnlor autnrizado, isto e. deve ser um lugar ondc algo pode ser armazenado. Isso significa que 
conslantes podem ser fontes, mas nao deslinos. 

Em seu projeto odginał, o 8088 requeria quc ao menos um operando em uma instmęao de dois operandos fosse 
um registrador. Isso para que a diferenęa enlre instruęóes de palavrus e instruęóes de bytes pudesse ser vista vcri- 
licando se o registrador cndcreęado era um registrador de palarras ou um registrador de bytes. Na primeira ver- 
sao do proeessador, essa idćia era imposta com tal rigor que era atć mesrno impossfvel colocar uma constante na 
pilha. porquc nem a fonte nem o destino era um registrador nuquela instruęao. Versóes posleriores eram menos rigo- 
rosas. mas, de qualquer modo. a idćia influenciou o projeto. Em alguns casos. um dos operandos nao ć menciona- 
do. Por exeitiplo. na instruęao MULB. somente o regisliador AX ć poderoso o suflcienle para agir como um destino. 

Tambćm liii varias instruęóes dc um só operando, como incremenlos, deslocamentos, negaęóes etc. Nesses 
casos, nao h«S nenhum requisito de registrador e a diferenęa entre as operaęóes de pahn ras e bytes tern de ser inle- 
rida apeuas pelos opcodes (isto e, tipos dc instruęao). 
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O 8088 suporta quatro tipos basicos de dados: byte de I byte, palavra ile 2 bytes, longo de 4 byles e decimul 
codiluudo em hinurin, no qual dois dfgitos decimais siło cmpacolados cm uma palavra. O ultimo tipo nao e supor- 
tado pclo intcrprctador. 

IJm enilereęu de memória sempre referencja um byte, cntretanto, no caso de urna pulavra ou de um longo, as 
locali/aęóes de memória diretamente acima do byte indicado nimbem sao implicilamente referenciadas. A palavra 
em 20 estd nas locali/uęócs de memória 20 e 21. O longo no endereęo 24 ocupa os endcreęos 24, 25, 26 e 27. O 
8088 e linie endian. o que signjfica quc a parte de ordcm baixu da palavra e urmazenudu no endereęo niuis baixo. 
No segmentu de pilhu, as puluvrus dcvem ser colocadas em endereęos pares. A comhinaęao AX DX. na qual AX con- 
letn a palavra de ordem baixa, ć u unica provis3o feila para longos nos rcgistradores do processudor. 

A Tabela ('.I dii uma vis3o geral dos modos de endereęainenlo do 8088. Vamos discuti-los brevemente agoia. 
O primciro bloco huri/ontul na parte superior da tabela relaciona os rcgistradores. Eles poiłem ser usados como ope- 
landos cm quase to.las as instruęóes, tanio como fontes, quanto como destinos. Hd oito rcgistradores de palaeras c 
oito rcgistradores dc bytes. 

O segundo bloco hori/ontul, endereęamento de segmentos de dados, contćrn modos dc endereęamento para o 
segmentu de dados Endcreęos desse tipo sempre contćrn um par de parenteses para indiear que o que se pretende 
represeutar ć o contetido do endereęo e nao o valor. O modo ntais fdeil de endereęamento desse tipo ć o endereęa- 
mento direto, no qual o endereęo de dados do operando esta na própria inslruęćo. Exemplo: 

AOD CX,(20) 

no qual o contcudo da palavra de ntemória nos endereęos 20 e 21 ć somado a CX. I .ocalizaęócs de memória coslu 
mam ser representadas por rótulos em vez de valores numćricos na linguagem de montagem, e u conversao ć feila 
em tempo de montagem. Atć mesmo em instruęóes CALL e JMP, o destino pode ser armazenado em uma locali/u- 
ęao de memória endereęadu por um rótulo. Os parenteses que cercam os rótulos sao essenciuis (para o assembler 
quc estamos usando) porque 

AOD CX,20 

lanibćm e uma instruęfio valida, só que significa somar a constante 20 a CX, e nao o contetido da palavra de mernó- 
ria 20. Na Tabela C. I, o sfmbolo tt e usado para indiear uma constante numerica, um rótulo ou uma cxpressao cons¬ 
tante que envolva um rótulo. 

Em endereęamento indireto dc registradnr, o endereęo do operando ć armazenado em um dos rcgistradores 
BX, SI ou Dl Em lotlos os tres casos, o operando e encontrado no segmento de dados. Tambćm ć possivel colocar 
uma constante na frente do regislrador, caso em que o endereęo ć encontrado somando-sc o registrador com a cons¬ 
tante. Esse lipo dc endercęumenlo, denominado deslocaincntn dc registrador. ć convcniente para velores. Se, |tor 
exemp!o, SI contivci 5, entiio o quinto caractere da cadeia no rótulo FORMAT pode ser carregudo em AL por 

MOVB AL FORMAT(SI) 

A cadeia inleira pode ser exuminadu inercmentando ou decrementando o registrador em cudu etapa. Quando 
sao usudos operandos de puluvru, o registrador deve ser alterudo de dois cudu vcz. 

Tambćm ć possi'vel colocar u busc (isto ć, o endereęo numerico mais baixo) tlo vetor no registrador BX e reservar 
o registrador SI ou Dl paru contagem. Isso e denominado endereęamento de registrador com ńulice. Por exenrplo: 

PUSH (BX)(DI) 

busca o contetido dii locali/aęao do segmento de dados cujo endereęo e dado pcla soma dos rcgistradores BX c Dl. 
Hm seguida, esse valor e passado para a pilha. Os dois tillimos tipos de endereęo poiłem ser combinados para obler 
endereęamento de registrador com fndice e dcsloeumento, como em 

NOT 20(BX)(DI) 

que complemenlu a palavru de memória em BX + Dl + 20 e BX + Dl + 21. 

Todos os modos de endereęamento direto no segmento de dados tambćm exislem paru o segmento de pilha, 
caso em que ć usado o ponteiro de base BP, em vez do registrador de base BX. Desse modo, (BP) ć o tinico modo 
ile endereęamento dc pilha indireto de registrador, mas exislem outros modos mais complicados, atć indireto de pon- 
teiro de base com fndice c dcsloeumento - 1(BP)(SI). Esses modos sito valiosos para endereęar variiiveis locais e 
puiametros de l unęao, que sao annazenados em endereęos de pilha em sub-rotinas. Esse arrunjo e descrilo com ntais 
dctullics na Scęao C 4.5. 

Todos os endereęos que oltpdecem aos modos de endereęamento disculidos atć agora podcm ser usados como 
fontes e destinos paru operaęóes. Eles sao deftnidos, em conjunto, como endereęos efelivos. Os modos de endere- 
ęuinento nos dois blocos restanles tuio podent ser usados como destinos e nao sao denominados endcreęos efetivos. 
Eles só podem ser usados como fontes. 

O modo de endereęamento no qual o operando ć um valor constante de byte ou palavra nu própria inslruęao ć 
denominado endereęamento imediato. Assim, por exemplo, 

CMP AX 50 

cotnpara AX com a constante 50 e ajusta bits no registrador ile flags conforme os resulladcts. 
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Taiieia c.i Modos de endereęamento de operandos. 0 simbolo # indica um valor numórico ou rótuio. 


[ Modo 

Operando 

Exemplos j 

Endereęamento de registrador 



Registrador de bytes 

Registrador de bytes 

AH,AL,BH,BL.CH.CL,DH,DL 

Registrador de palavras 

Registrador de palavras 

AX,BX,CX,DX,SP,BP,SI,DI 

Endereęamento de segmentos de dados 



Endereęo direto 

Endereęo vem depois do opcode 

1*1 

Indireto de registrador 

Endereęo em registrador 

(SI). (DI). |BX) 

Deslocamento de registrador 

Endereęo em registrador+deslocto. 

#|SI|. #|DI|, #{BX) 

Registrador com indice 

Endereęo ś BX + SI/DI 

. (BX)(S1), |BX)|DI) 

Registrador com indice e deslocamento 

BX + SI DI + deslocamento 

#(BX)(SI), #(BX)|D1) 

Endereęo de segmento de pilha 



Indireto de ponteiro de base 

Endereęo em registrador 

(BP| 

Deslocamento de ponteiro de base 

Endereęo e BP + deslocto. 

#(BP| 

Ponteiro de base com indice 

Endereęo ó BP + SI/DI 

1BPIISI), |BP|(D1) 

Deslocto. de indice de ponteiro de base 

BP+SI/DI + deslocamento 

#|BP)(S1|. #|BP](DI) 

Dados imediatos 



Byte/palavra imediato 

Dados sao parte da instruęao 

# 

Endereęo implicito 



Instmędo push/pop 

Endereęo indireto (SP) 

PUSH. POP. PUSHF, POPF 

Flags de carregamento/armazenamento 

Registrador de status de flag 

LAHF, STC, CLC, CMC 

Traduzir XLAT 

AL. BX 

XLAT 

Instruęóes de cadeias repetidas 

|St|. (DI). |CX) 

M0VS. CMPS, SCAS 

Instruędes de E/S 

AX, AL 

IN #. OUT # 

Comrerte byte, palavra 

AL, AX, DX 

CBW.CWD 


Por firn, algumas das instruęóes usam endereęamento implicite. Para essas instruęóes, o operando ou ope¬ 
randos estilo implfeitos na própria instruęHo. Por exemplo, a instruęao 
PUSH AX 

passa o conteiido de AX para a pilha decrementando SP e entao copiando AX para a locali/aęao agora apontada por 
SP. Enlrelanto, SP nao ć nomeado na instruęao em si; o mero lato de ser urna instruęao PUSH impiica que SP 6 
usado. De forma semelhante, as instruęóes de manipulaęao de flags usam implieitamente o registrador de flags de 
status sem nomed-lo. Diversas outras instruęóes tamhćm tóm operandos implfeitos. 

O 8088 tern instruęóes espeeiais para tnover (MOVS). comparar (CMPS) e esaniinar (SCAS) cadeias. Com essas 
instruęóes de cadeia, os registradores de fndices SI e Dl sito alterados autoinaticamente após a nperaęAo. Hsse com- 
portamento ć denominado modo de auto-ineremento ou de autodeeremento. O flag de direęao no registrador de 
flags de status € que indica se SI e Dl sao inerementados ou decrementados. Um valor 0 no flag de direęOo inere- 
menta, enquanto um valor dc I dcerementa. A alleraęao ć 1 para instruęóes de hyte c 2 para instruęóes de palavra. 
De certo modo, o ponteiro de pilha lamhem 6 de auto-ineremento e autodeeremento: ele e deerementado de 2 no 
infcio de urna PUSH e inerementado de 2 no finał de urna POP. 

c.4 0 conjunto de instruęóes do 8088 

O cornęSo de lodo computador 6 o conjunto de instruęóes que ele pinie execular. Para entender realnienie um 
computador, ć nccessario compreendcr bem seu conjunto dc instruęóes. Nas scęócs seguintes, disculiremos as instru- 
ęóes mais importantes do 8088. Algumas deias sao niostradas na Tabela C.2, na qual estfio divididas em dez grupos. 

0.4.1 Mover, copiar, efetuar aritmetica 

O primeiro grupo de instruęóes sao as instruęóes para copiar c mover. De longe. a mais cotnum 6 a instruęao 
MOV, que tern urna fonie explfcita e um destino explfcito. Se a fonie for um registrador, o destino pode ser um endc- 
rcęo efetivo. Ncssa tabela, um operando de registrador 6 indicado por um r e um endereęo cfetivo ć indicado por 
um e, portanto, essa cumbinaęAo de operandos e denotada por e*-r. lissa e a primeira entrada para MOV na coluna 
Operandos. Urna vez que na sinlaxe da instruęao o destino e o primeiro operando e a fonie, o segundo operando, a 
seta <— e usada para indicar os operandos. Assim, e<- r significa que um registrador ć copiado para um endereęo 
efetivo. 
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Na instruęao MOV, a fonie tanihem pode ser um endereęo efetivo, e o deslino, urn regisirador, o que sera denoia- 
do por r<-e. a segunda enirada da instruęao na coluna Operandos. A lerceira possihilidade 6 dados imediatos como 
fonie, c endereęo elctivo como deslino, o que resulla ein e*-0. Na tabela, dados imedialos sao indieados pelo sinal i#). 
Vislo quc exi stem duas insinięocs, MOV para mover palavras e MOVB para mover byles, o inncmdnico da instruęao ter- 
mina eotn um B entre parenteses. Dessa forma, a linha realnienie represenla scis insiruęóes diferenies. 

Nenhum dos llags no registrndor dc código de condięio e afetado por urna inslruęao move, poriunlo, nas lilii 
mas qualro eolunas a enirada ć Nole quc as instruęftcs move nSo movem dados. Elas fa/.em eópias, o que »ig- 
nifiea que a fonie min e inoditieada como ueonleceria eom um movimenlo verdadeiro. 

A segunda insiiuędo na lalrela ć XCHG, que Iroea o conieiido de um regisirador eom o conteiido de um ende- 
rcęo efeiivo. A tabela usa o simbolo para a iroca. Nesse caso, exisie urna versAo para byle e lambem urna para 
palavra. Assim, a inslruęao i denotada por XCHG (Bi e o caiupo Operand contćm r*-+e. A próximu inslruęao e LEA, 
i|ue quer di/er Louil Effective Address (earregue endereęo efelivo). Ela caleula o valor uumerico do endereęo ele 
tivo e o amia/cna em um regisirador. 

A seguir, vem PUSH. que passa seu operando para a pilha. O operando explfcito pode ser urna consiante (# na 
coluna Opermdos) ou um endereęo efetivo (e na coluna Operandos). Ha tambćm um operando implfcito, SP, quc 
nao ć mencionado na sinluxe da instruęao. A tarefa da instruęao i decrementar SP de 2 e cntflo armazenar o ope- 
rundo na localizaę&o agora apontada por SP. 

Dcpois vetn POP. quc remove um operando da pilha para um endereęo efctivo. As duas inslruędes seguintes, 
PUSHF e POPF. nimbem tćm operandos implfcitos, o regisirador de flags push e pop, respeetivamenle. Esse tum¬ 
bom e o caso de XLAT, que earrega o regisirador de byte AL a purtir do endereęo caleulado por AL + BX. Essa ins¬ 
truęao permite consulla rApida cm tabclas de 256 bytes de tamanho. 

As instruęoes IN e OUT foram iletinidas nficialmcntc no 8088. mas nao foram implementadas no inlerpreludor 
(c, por isso, nao cslao rclacionadas na Tabela C.2) e, na verdade, sao instruęoes para mover de e para um dispositi- 
vo de E/S. O endercęn implfcito ć sempre o regisirador AX, e o segundo operando na instruęiio 6 o numeru de porta 
do regisirador de dispositivo desejudo. 

No segundo bloco da Tabela C.2 estao as inslruęfies de udięSo e subtraęSo. Cuda urna delas tern as mesmas nfis 
coinbinaędes de operandos de MOV: endereęn efctivo paru regisirador, regisirador para endereęo efelivo e conslan- 
le para endereęo eletivo. Assim, a coluna Operandos da tabela contem rt-e, e*-r c e< U. Em todus essas quairo 
instruęoes, o Hag dc exeesso, O, o Hag de sinal, S, o Dag de /ero. Z, e o Hag de vai-um, C, sao todos ajusiados eom 
ba.se no raultado da instruęao. Isso signifka, por exempio, quc O e mareado se o resultado mio puder ser exprcsso 
corretamente no nuinero permiiido de bils e desmarcado se puder. Quando o nuiior niimero de 16 bils, 0x7fff 
1 52.767 em decimul). for somado coin ele mesmo, o resultado nSo pode ser expresso como um niimero de 16 bils 
com sinal, portanto O e ajustudo para indicar o erro. Coisas semelhantes uconlecem com os outros flags de status 
nessas operaęńes. Se mim instruęao caitsar algum cfeilo sobie um flag de status, isso ii indicado por um aslerisco 
(*) na coluna correspondeute. Nas instruęoes ADC e SBB, o llag de vai-um no infcio da opeiaęao e usado como 1 
(ou 0) extra. que e vislo como um mi-urn ou empresta-um da operaęilo anterior. Essa faeilidnde e de espccial ulili- 
ilade para representur inleiros de 32 bils ou mais longos em vdrias palavras. Tambóm existetn versóes de bytes para 
todas as adięócs e subtruębes. 

O bloco seguinie coniem as instruęoes de multiplicaęAo e divisao. Operandos inteiros com sinal requerem as 
inslruębes IMUL e IDIV; os scin sinal usam MUL e DIV. A combinaęao de registradores AH : AL e o deslino implfcito 
nu versao de byte dessas insiruęóes. Na versdo de palavru. o deslino implfcito e a combinaędo de registradores AX 
DX. Mesmo que o resultado da multiplicaęAo seja somente unia palavra ou um byle, o regisirador DX ou AH ć rees- 
crilo durante a opeiaęao. A inulliplicaęao sempre e possfvel porque o destino contem bils suficientes. Os bils de 
excesso e vai-um sAo ajusiados ipiando o produto nao puder ser representadn em lima sd puluvra, ou em um sd byle. 
Os llags de /ero e de negalivo sao indeftnidos apds urna multiplicaęao. 

A divisao tamhem usa as combinaęoes DX : AX ou AH : AL como o deslino. O ijuocicnte vai para AX ou AL e o resto 
para DX ou AH. Todos os quutro llags: vai-um, excesso, zem e negutivo sio indefinidos apds urna operaęAo de divisao. 
Se o divisor for 0, ou se o quociente nao couber no regisirador, a operaęAo executu umu cxccęao, que intenompe o pro- 
grama a menos que esteju presenlc urna rotina de tratador de exceęao. Ademais, e sensuto Iratur sinais dc menos em 
software antes c dcpois da divisao porque na definięao do 8088 o sinal do resto e iguul uo sinal do dividendo, ao 
passo que em muicmdticu, um resto e sempre nAo-ncgalivo. 

As inslnięńcs paru dccimuis em cddigo binario, entre as quuis Ascii Ailjust for Addition (AAA) |ajusie Ascii 
para adięaul e Decimul Ajusi for Addilion (DAA) fujusle dccimal para adięaoj, nAo sfto implementadas jk*1o inler¬ 
preludor e nao s&o mosiradas na Tutiela C.2. 

C.4.2 Operacóes lógicas, de bit e de deslocamento 

O prdximu hitu o coniem iustniędes para extensuo dc sinal, negaęao, complemento Idgico, ineremento e decremen- 
lo. As operaędes de extensio de sinal nao tern nenhum operando explfci(o, mas agem sobie as combinaęoes de registra¬ 
dores DX : AX ou AH : AL. O operando unico para as oulras operaęóes desse grupo pinie ser achado cm qualquer emle- 
reęo efelivo. Os flags sao afelados do modo esperado nos casos de NEG, INC e DEC, exceto quc o vai-um nao ć afelado 
no ineremento e deciemenlo, o que e algo baslante inesperudo e que alguns consideram como um erro de projeto 


Apendice C Programaęao em Llinguagem de Montagem 



Organizaęao Estruturada de Computadores 418 


Tabela c .2 Algumas das instruęoes tnais importantes do 8088. 


I Mnemónlco 

Descrięśo 

Operandos 

[Flags 

de status I 




0 

z c 

M0V|B| 

Mover palavra. byte 

r«- e. e«-r, e *- # 

- 

- - 

XCHG|B| 

Trocar palavra 

i <-» e 


- - 

LEA 

Canegar endereęo efetivo 

r«- #e 

- 

- - 

PUSH 

Passar para pilha 

e,# 

- 

- - 

POP 

Rettrar da pilha 

e 



PUSHP 

Push Fl8gs 

- 

- 


POPF 

Pop Flags 

* 

- 

- - 

KLAT 

Trnduzir AL 

- 

- 


ADD|B) 

Somar palavra 

i(-e,e*-r,e(-# 

* 


ADC|B) 

Somar palavia com vai-um 

r«- e. e <- r, e «- ♦ 

* 


SUB(B) 

Subtralr pałnvra 

r 4~ e, e ł- r. e 

• 


SBB(B) 

Subtrair palavra com emprśstimo 

rł-e. e«-r, ef-# 

* 


IMUli(B) 

Multiplicar com sina! 

e 



MUL(B) 

MultlpUcar sem sinal 

e 

• u u ‘ 

IDIV|B) 

Dtoidlr com sinal 

e 

C 

c 

c 

c 

DIV|B) 

Dividir sem sinal 

e 

c 

c 

c 

c 

CBW 

Estender Byle/palavra com sinal 

- 

4 

- - 

CWD 

Estender Palavra/dupla com sinal 

- 

- 


NEG|B| 

Nega binario e 

* 

• 

• • 

NOT(B) 

Complemento lógico 

e 

- 

- - 

INC(B) 

Incrementar desdno 

e 

• 

• - 

DEC(B) 

Decrementar destino 

e 

• 

• - 

ANDIB) 

AND lógico 

e <- t, r <- e. e «- # 

0 

• 0 

OR(B| 

OR lógico 

e 4 - r, r«- e, e # 

0 

• 0 

XOR(B) 

OR excluslvo lógico 

e <- r, r <- e, e «- * 

0 

♦ 0 

SHR|B| 

Deslocamento lógico para a direita 

et- 1, e ♦- CL 


• » 

SAR|B| 

Deslocamento aritmetico para a direita 

e «- 1. e ♦- CL 


♦ • 

SAL|B) 

|=SHL|B|) deslocar para a esquerda 

8 ♦— I, 8 4— CL 


• • 

ROMB) 

Fazer rolaęśo para a esquerda 

6 ♦— L 6 *— CL 



ROR|B| 

Fazer rotaęśo para a direita 

6 4“ 1* 0 ♦— CL 


• 

RCL|B| 

Fazer rotaęśo para a esąuerdn com vai-um 

8 4— 1, 6 4“ CL 


- • 

RCR|B) 

Fazer rotaęśo para a direita com val-um 

e 1, e «- CL 


* 

TEST(B) 

Tastar operandos 

e *-* t, e «-» # 

0 

• 0 

CMP|B) 

Compare operandos 

e «-» r. e ♦ 



STD 

Ajuste nag de direęśo|i) 

- 

- 


Cl.D 

Liberar flag de direęio |T) 



- - 

STC 

Ajustar flag de vai-um 

- 


- i 

CLC 

Liberar flag de vai-um 

- 


- 0 

CMC 

Complementar vai-um 

- 


- • 

Eóop 

Sallar para trśs se ĆX l 2 0 decreraentado 

rótulo 


- - 

LOOPZ I.OOPE 

Para trśs se 2=1 e DEC|CX)I i 0 

rótulo 


- - 

LOOPNZ LOOPNE 

Para trśs se 2=0 e DEC|CX|i i 0 

rótulo 



REP REPZ REPNZ 

Repetir lnstnięfio de cadeia 

instruęśo de cadeia 



MOVS(B| 

Mover cadeia de palavta 

- 



LODS(B) 

Canegar cadeia de palavra 

- 



STOS(B) 

Armazenar cadeia de palavra 

- 



SCAS(B) 

Ezaminar cadeia de palavra 

- 


- - 

CMPS(B| 

Comparar cadeia de paiavra 

- 



JCC 

Saltar conforme condięóes 

rótulo 



JMP 

Sahar para rótulo 

e, rótulo 



CALL 

Saltar para sub-rotiłia 

e, rótulo 


- - 

RET 

Retornar dn sub-rotina 



- - 

SYS 

Exceęśo de cliamada de sistema 

- 




3 












O bloco ile insiruęóes segumte ć o grupo lógico de dois operandos cujus instruęócs se comportam como espe 
rado. No grupo de desloeamenlo e rotaęao, lodas as operaęóes lem um endereęo efcłivo como seu dcstino. mas u 
fonie e o rcgistrador dc bytes CL ou o ndmero 1. Nos deslocamentos, todos os quatm tlags sao aletudos; nas rola 
ęóes, somenle o vai-um e o excesso s3o afelados. O vai-um sempre obtem o bil que ć deslocado ou que sai, nu rota¬ 
ęao. do bil de ordem ulla ou de ordem baixa, dcpcndendo da direęao do desloeamenlo ou da rolaęao. Nas rotaęóes 
com vai-um. RCR. RCl, RCRB e RCLB, o vai-um, juniameuic com o openmdo no endereęo efetivo, constiiucm urna 
combinaęfio dc registradores dc desloeamenlo circular de 17 bils ou de 9 bits, que facilita deslocamentos e rotaęóes 
dc miilliplus pulavras 

O prósimo blocu dc insiruęóes e usado pura manipular os hils de flag. A principal razao |>ara isso ć preparat 
para sallos condicionais. A sela dupla «-» e usadu cm operaęóes dc comparaęao e lesle para indicar os dois operan- 
dos. quc nao mudam .lnianie u opciuęao. Nu operaęao TEST. o ANO lógico dos operandos e calculado para ajustar 
ou liberar o Hag de zero c o Hag de sinal. O vulor calculado prnpriamente dito nao i armuzenudo cm nenhum lugar 
e o operundo nilu e mmiilicado. Na CMP, a difercnęu entre os operandos e calculadu e todos os qunlro tlags sSo mar 
cados ou liberados como resullado du comparaęSo O flag de direęao. quc delermina se os registradores SI c 01 
dcvcm ser incrcmenlados ou decremcniudos nas insiruęóes dc cudeia. pode ser ajustado ou liberado por STD c CLD, 
respeciivamente. 

O 8088 lambćm lem um flag de paridade c um Hag uusiliur de vai-um. O flag dc paridade d;i a paridade 
do resultailo (par ou tmpar). O Hag auxiliar verilica se houvc exccsso no meio byle (4 bits) (ou vai-um) dc ordem 
baixu do destino. Tarnbdm ba insiruęóes LAHF e SAHF, que copiam o byle de ordem baixa do rcgistrador de flag 
cm AH e vice-versa. O flag de excesso estii no hyte de ordem alla do registrador dc código dc condięao c niTo e 
copiado uessas insiruęóes. Essas instruęócs e flags sao usadas principulmenle paru compalibilidade com os pro- 
ccssadores 8080 e 8085. 

C.4.3 Operaęóes de laęo e cadeias repetitivas 

O bioco seguinic coniem as insiruęóes para exccuiar. laęos. A instruęao LOOP decrementa o registrador CX e 
salta para irds aić o rotulo indicado se o resullado for positivo. As insiruęóes LOOPZ, LOOPE, LOOPNZ e LOOPNE 
Limbom testam o flag de zero paru vcr se o laęo dcve ser abonado anies de CX ser 0. 

O dcstino dc lodas as insiruęóes LOOP deve estar dentro de 128 bylcs em relaęao h posięao corrente do con- 
ludor de programu porque u instruęao coniem um desloeamenlo de 8 bits com sinal. A quantidade de instruędes (cm 
comparaęao com bylos) que podem ser saltadus nSo pode ser calculadu com exatidao, pois insiruęóes diferenlcs tern 
compriinenios diferenlcs. Gcralmcntc, o primciro byte defutc o lipo dc urna instruęao c, portanto, algumus inslnt- 
ęóes precisam somenle de um byle no segmenlo de código. Muilas vezes, o segundo byle e utilizado para definir os 
registradores e modus dc regisirudores da instruęao c, se as insiruęóes contivercm deslocamentos nu dados imedia- 
los. o comprimento da insiruęao pode uumeniur ale quatro ou seis bytes. O compriincnto inćdio da instruęao ć de 
cercu de 2.5 bytes por insiruęao. portanto LOOP n8o pode saltar para trds rnais do quc ccrca de 50 instruęócs. 

lambćm exislem alguns mecanismos especiais para laęos em insiruęóes de cudeia. Eles sao REP. REPZ c 
REPNZ. De modo semelhunte, lodas as cinco insiruęóes de cudeia no próximo bloco du Tabela C.2 tfim endereęos 
implicitos e lodas usant modo auto-incremenlu ou modo aulodccremenio nos registradores de (ndices. Em todus 
essas insiruęóes. u registrador SI upontu para dentro do segmentu de duduś, mas o registrador Dl referenda o seg¬ 
mentu exlru. que ć buscado em ES. Juntamente com a insiruęao REP. a MOVSB pode ser usadu paru mover cudeias 
complelas cm urna instruęao. O comprimento da cadeia estii conlido no registrador CX. Urna vez que a iuslruęfio 
MOVSB nao ufcia os llugs, nao e poss(vcl verilicar um byle /.ero ASCII durante a operaęao de cópia por meio du 
REPNZ, no entanto. isso pode ser consertado usando-se primciro urna REPNZ SCASB para obler um va!or sensato 
em CX e, muis tanie. urna REP MOVSB. Essc ponto serd ilustrudo pelo exemplo de cópia de cadeia na Seędn C.8. 
lim todas essas insiruęóes ć preciso dar atenęao extra ao registrador de segmentos ES, u menos quc ES e DS tenham 
o mesmo valor. No inlerprelador e usudo um modelu de memória pequena, de modo quc ES — DS - SS. 

C.4.4 Instruęóes Jupip e Cali 

O ultimo bloco truta de saltos condicionais e incondicionuis, chamados de sub-rolinas c retornos. Aqui, u ope¬ 
raęao mais simples e a JMP. Ela pode (er um rótulo como dcstino ou o contctido de qualqucr cndereęo efetivo. E 
leiia uma distinęao entre um saltu próxitnu e um saltu distantc. Em um salto próxinto. o destino estii no segmen- 
to de cikligo corrente. quc nao inuda durante a operaęao. Em um salto distantc, o registrador CS e ulterado durunle 
o salto. Na vers3o direla com um rótulo, o novo vulor do registrador de segmenlo de código ć fomecido na chama- 
du apos o rótulo; na ecrsfio com endereęo efctivo um longo e buscado nu memória, tul que a pulavra baixa corres- 
potula ao rólulo de destino e a pa!uvra alta ao novo valor do registrador dc segmenlo de código. 

F. ciuro que na<> ć surpresu que tal distinęao exista. Para sallai' para um endereęo arbitrdrio dentro de um espu- 
ęo de endereęo de 2(1 bils, ć preciso fazer alguma provisao paru especiftcur mais que 16 bits. O modo de fazer isso 
ć dar tunos valores para CS e PC. 

Saltos condicionais 

O 8088 lem 15 sallos condicionais e alguns deles leni dois nornes (por exemplo, JIJMP GREATER OR EQUAL 6 
a mesma insiruęao que JUMP NOT LESS THAN). Eles eslao relacionados nu Tabela C.3. Todos eles só perm i lem sal- 
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tos dentro dc urna distfincia de atć 128 bylcs cm relaęao ii instruęao. Se n dcstino nao cstivcr denim dcssa faixa, ć 
preciso usar unia constmędo de saltu sobre salto. Nessa construęilo ć usado o salto cum a condięao upustu paru sal 
tar sobre a próxima inslruęao. Se a próxima instruęfin conliver urn salto incondicional para o dcstino pretendido. cntao 
o efeito dessas duas inslmęóes ć apcnas um salto de alcance maior do que o lipo pretendido. Por exemplu. em ve/ de 

JB FARLABEL 
Temos 

JNA 1f 

JMP FARLABEL 

1 : 

Ern outras palavrns. sc nao for possfvel fa/.er JUMP BELOW. cntao ć colocada urna JUMP NOT ABOVE o rńtulo / que 
csteja perto, seguida por um salto incondicional atć FARLABEL. O elcito ć o mesitro, eom um custo ligeiramente 
mais allo em tempo c cspaęo. O asserabler gcra csses saltos sobre saltos automaticamcnte quando se cspcra que o 
dcstino estcja niuito distante Fazcr csse cdlculo corrctamente ć um pouco complicado. Suponha que u distfincia 
csteja priuima do limite. mas algurnas das inslmęóes inlervenientes tanrbćnr scjam saltos condicinnais. O mais 
extcmo nfio pode ser resolvido atć que os tantanhos dos intemos sejam conhecidos e assim por diante. Por seguran- 
ęa, o assetnblcr erra em favor da prccauęSo. As vez.es. gera um salto sobre salto quando nsio ć estritamente neces- 
sńrio. Só gera um salto condicional direto quando estiver absolutatncntc certo de que o alvo esta derrtro da faixa. 

A maioria dos saltos condicionais depende dos flags de 'tatuś e s3o prcccdidos por urna inslruęao de tesle ou 
comparaęao. A inslruęao CMP subtrai o operando da fonte do opcrando de destino, ajusta os códigos de condięao e 
descarta o resullado. Nenhum dos operandos ć alterado. Se o resullado for zero ou seu bit de sinal estiver ligado 
(isto ć. se for negativo), o bit de Hag correspondente ć marcado. Se o resullado nao puder ser espresso no numeru 
permitido de bits. o flag de exccsso e marcado. Se houver um vai-um no bit dc ordetn alta, o Hag de vai-um ć mar 
cado. Os saltos condicionais podem lestar todos esses bits. 

Se os operandos forem considerados como operandos com sinal. devcm ser utilizadas as inslmęóes quc usam 
GREATER THAN c LESS THAN. Se forem sem sinal, devem ser utilizadas as que usam ABOVE e BELOW. 

C.4.5 Chamadas de sub-rotina 

O 8088 tem urna instruęAo usada para chamar procedimcntos. geralmcntc conhecidos cm linguagem de tnon- 
tagem como sub-rulinas. Do mesmo modo quc cm inslmęóes dc salto, cxistcm inslmęóes dc chamada prńxima e 
inslmęóes de chamada distante. No interpretador ć implementada sornente a chamada próxima. O dcstino ć um 
tólulo ou pode ser encontrado cm um endereęo efetivo. Parflmetros nccessfirios para as sub-rotinas tern dc ser pas- 
sados para a pilha em primciro lugar na ordcm inversa, como ilustrado na Figura C.3. Em linguagem de montagem 
os par&mclros costumam ser denotninados argunrentos. mas os temios sAo intercambiavcis. Após essas passagens. 
a instmęSo CALL ć executada. A instmęao comcęa passando o contador de programa correntc para a pilha. Desse 
tnodo, o endereęo de retorno ć salvo. O endereęo de retorno ć o endereęo no qual a execuęao da rotina chamndom 
tem de prosseguir tpiando a sub-rotina retomar. 


Tabela C.3 Saltos condicionais. 


|| [nstnięao 

Descrięao 

| Quando saltar 1 

JNA. JBE 

Abnlxo ou igual 

CF- 1 or ZP 13 1 

JNB, JAE. JNC 

Nao abaixo de 

CF=0 

JE, JZ 

Zero. igual 

ZF=1 

JNLE, JG 

Maior que 

SF=0F e ZF=0 

JGE, JNL 

Maior que ou igual 

SP=0F 

JO 

Excesso 

0F=1 

JS 

Sinal negativo 

SF= 1 

JCXZ 

CX 6 zero 

CX^0 

JB, JNAE, JC 

Abaixo 

CF=) 

JNBE, JA 

Acirna CF50&ZF50 


JNE, JNZ 

N3o-zero, nio-igual 

ZF=0 

JL. JNGE 

Menos que 

SF 0F 

JLE. jng 

Manos que ou igual a 

SF * 0F or ZF= 1 

JNO 

Nao-excesso 

O 

1! 

U. 

O 

JNS 

Nao-negativo 

SF=0 


r 


3 




Mitura C.3 

Hm exemplo de pilha 


BP«a łjj. 

BP i b Ai flumanlo ? 

BP .a Argumento I 

BP.2 Łmlereęode relorno 
BP « 

BP 2 Yarliwal local 1 

BP 4 Vaflśvel local 2 

BP-6 Vanaval local 3 

BP B Rtcullado tempo, ano 


Km seguulu, o nuvo contudor de programu e carregudo a puriir do rótulo, ou a partir do endereęo efetivo. Se a cha 
mada lor disianie, eniao o rcgistrudor CS e passado para u pilha de PC c ambos, o contudor de programu e o regis- 
irudor de segmentu dc código, s3o carregados a parlir tle dados i mediator ou a parlir do endereęo efetivo. Isso con- 
clui a inslruęiło CALI . 

A instruęao de iclorno, RET, apenas retira o endereęo de retomo da pilha, arnuuenu esse endereęo no conlodor 
de programu e o programu continua na instruęio imediatumente upńs a instruęfio CALL. As ve/es, a instruęao RET 
cunlem urn ndmero posilivo como dados imediatos. Adinite-se que esse ndmero seja o ndmero de bytes dos argu- 
inentos quc forum passados puru a pilha untes du chamadu; cle 6 adicionudo a SP pum limpur a pilha. Nu variantc dis- 
lante, RETF, o registiador de segmentu de código ć retirado depois do contudor de programu, como seria de esperat. 

Os arguiuentos precisam estar ucessfveis dentro da sub-rotina. Portanto, a sub-rotina muilas ve/es inicia pas- 
sando para a pilha o ponteiro de base e copiando o valoi* correnle de SP para BP. Isso sigm licu que o poniciro de 
base uponta para seu valor anterior. Agora o endereęo de retomo esta ein BP + 2 e o primeiro e segundo argumen- 
ttłs podem ser eneuntiados nos endereęos efetivos BP + 4 e BP + 6. respectivamente. Se o procedimenlo precisar de 
vuridveis locais, entao o numeru requerido de bytes pode ser subtraido do ponteiro de pilha e essas varidveis podem 
ser endereęadas a partit do ponteiro de base com deslocamentos negativos. No exemplo da Figura C.3, ha tres varid- 
veis locais de palavra unita loeali/adas em BP — 2, BP - 4 e em BP - 6, respectivamente. Desse modo, todo o con- 
junto de argumentos correntes e variaveis locais pode ser uleanęado por meio do registrador BP. 

A pilha e usadu do motlo comum para salvar resultudos intermediarios ou para preparar argumentos paru a 
próxima chamadu. Sem calcul.tr a quantidade de pilha usada na sub-rotina, a pilha pode ser reslaurada antes do 
retomo copiando tt ponteiro de base para o ponteiro de pilha, retirando o BP antigo da pilha e, por firn, executan- 
do a instruęao RET. 

Ourunie urna chutttada de sub-rotina, os vulores dos registradores de processador as vezes mudam. E boa pratica 
usur ulgum lipo de convenęao tul que a rotina que esta chumuntlo nao precisc estar cienie dos registradores usados pcltt 
rolina tpte loi chamaila. O modo muis simplcs de fa/er isso ć usar as tnesmas convenęóes paru chumadas dc sistenui e 
sub-rotinas nonnais. Admite-se quc AX c DX possani mudur na rotina chumada. Se um desses registradores contiver 
inlorniuęóes valiosus, entftu e uconselhdvel que a rotina que esta chamando os coloque na pilha untes dc passar os 
argumentos. Se a suh rotina lumbćtn usar outros registradores, estes podem ser passados para u pilha imediatamen- 
!c no inicio da sub-rotina e tetirudos antes da instruęao RET. Em outras palavras, urna boa convenęao ć a rotina chu- 
madora salvar AX e DX sc cles contiverem algo de importante c a rotina chamada sulvar quuisquer outros regislra- 
dores que elu sobrescrever. 

c.4.6 Chamadas de sistema e sub-rotinas de sistema 

Para separar as tarefas de alirir. fechur, ler e escrever urquivos da programaęao de montugem. programas sito exe- 
cutudos cm um sistema operaciortal. Para permitir quc o interpretador execute em multiplas platuformas, um conjunto 
de sete chumadas de sistema e cinco lunęoes sao suportadus pelo inteipretador. Elas estao relacionadas na Tabela f'.4. 

Essas do/e rotinus podem ser utivadas pela seqiienciu de chumada padrao; em primeiro lugar, passe os urgu- 
inentos necessarios puru a pilha cm ordem inversa, entSo passe o numeru da chamada c, por lim, executc a instru- 
ęao de exceęao de sistema SYS sem operandos. A rotina de sislemu cncontra todas as informuęócs necessdrias na 
pilha. incluindo «* mimem ila chumada do servięo de sistema requerido. Valores de retomo sfto colocados no regis- 
trador AX, ou nu coiuhinuęiko de registradores DX : AX (quundo o valor de retomo for um longo). 

Ii guramido que todos os outros registradores munteriio seus valorcs na instruęao SYS. Alćm disso, tis argumen¬ 
tos ainda estarao na pilha após a chamadu. Visto que eles nao sao mais necessarios, o ponteiro de pilha devc ser ujus 
lado upńs a chumada (pela instruęao chamadora), u menos que sejam necessarios para umu chamada subseqtlente. 

Por convenićnciu, os nontes das chumadas dc sistema (lodem ser deftnidos como constunlcs no infcio do pro¬ 
gramu assemblcr, dc modo que elas possani ser chamadas pelo nonie cm vez dc pelo mimem. Nos exemplos, ser3o 
discutidas vatias chumadas ile sistema, portanto, nesta seęao, daremos somente um minimn necesstirio de delulhes. 

Nessaś chamadas de sistema, arquivos sao abertos pela chamada OPEN ou pela chamada CREAT. Em ambos 
os casos, o primeiro argumentu 6 o endereęo do infcio de urna cadeia que contćm o nomc do arquivo. O segundo 
argumentu na chamada OPEN ć 0 (caso o arquivo deva ser aberto paia leitura), I (caso deva ser abeilo para escri 
ta), ou 2 (para amhos). Caso o arquivo deva permitir escrilas e ainda nao existir, de ć criado pela chamada. Na 
chamadu CREAT, e criado um arquivo vuzio, com pcrmissiio ajusladu de acordo com o segundo argumentu. Ambas 
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Tatieia c.4 Algumas chamadas de sistema e sub-rotinas UNIX disponiveis no interpretador. 


| No 

Nomo 

Argumentos 

Valor de retomo 

DescrięSo 1 

5 

-OPEN 

*nome, 0/1/2 

descritor de arąuńro 

Abra arqulvo 

8 

-CREAT 

•nome, *modo 

descrilor de arquivo 

Crie arquivo 

3 

-READ 

fd. buf. nbytes 

# bytes 

Lela nbytes para buffer buf 

4 

-WRITE 

td, buf, nbytes 

# bytes 

Escreva nbytes a pnrtfr do buffer buf 

6 

-CtX)SE 

fd 

0 para sucesso 

Feche arąuńro com fd 

19 

-LSEEK 

fd. oflset|long|, 0/1/2 

posięao (longo) 

Mova ponleiro de arqutvo 

1 

-EX1T 

status 


Feche arqulvos Parę processo 

117 

-GETCHAR 


lela caractere 

Leia caractere da enlrada-padrao 

122 

-PUTCHAR 

char 

68 CT 0 va byte 

Escreva ctiraclere para salda-padrfio 

127 

-PRINTF 

•format, arg 


lmprima formatado na saida-padrao 

121 

-SPRINTF 

buf. ‘format, arg 


Imprtma formatado em buffer bul 

125 

-SSCANF 

buf. ‘format arg 


Leia argumentos de buffer buf 


as chamadas, OPEN e CREAT. retornam um intcim pequeno no registrador AX. qtic ć dcnominado descrilor dc 
art|uivo e qne pode ser usado para ler, escrevcr c fccliar o arquivo. Um valor de relorno negativo significa que a 
chamada falhou. No infcio do programa. des arquivos jti cst3o abertos com descrilores cle nrqmvn: 0 para entrada- 
padrao. 1 para snfda-padriLo e 2 para safda de erro-padrio. 

As chamadas READ e WRITE tfim tr6s argumenlos: o descrilor de arquivo, um bulTer para conler os dados c o 
mimero de hytes a transferir. Urna vez que os argumentos sao empilhados em ordcm invcrsa, eni primeiro lugat pas- 
samos o numero de bytes, entao o endereyo do infcio do buffer. em seguida o descrilor de arquivo c. por firn. o 
mimero da chamada (READ ou WRITE). Essa ordcm dc cmpilhamcnto dos argumenlos foi cscnlhida para ser igunl 
i) scq(iencia de chamada pndriio em linguagem C. na qual 

read(fd, buffer, byles); 

e implementada passando-se os parametms na ordem hytes, buffer e, por fim./i/. 

A chamada CLOSE requcr apenas o descrilor dc arquivo c retoma 0 cm AX sc o fechamcnto do arquivo foi 
bem-sucedido. A cłiamnda EXIT requero status de safda na pilha e n3o retoma. 

A chamada LSEEK altera o ponteirn de leilura/escrita cm um arquivo aberto. O primeiro argumentu ć o des- 
critor de arquivo. Vislo que o segundo argumento 6 um longo, a palavra de ordem altu deve ser passada para a pilha 
cm primeiro lugar e. em seguida, a palavra de ordem babta, ntesmo quando o deslucamento couber em urna pala- 
vra. O terceiro argumento indica sc o novo ponleiro de lcilura/cscrita deve ser calculado em relayao ao infcio do 
arquivo (caso 0). em rclaySu il pusiyao corrente (caso 1). ou cm relayao ao fmal do arquivo (caso 2). O valor de retor 
no ć a nova posiyao do ponleiro em relayao ao infcio de um arquivo e pode ser enenntrado como um longo na com- 
binayao dc regislradorcs DX : AX. 

Agora, cheganios hs funyóes que nao sao chamadas de sistema. A funyao GETCHAR le um caraclcre da cnlra- 
da padrao e o coloca cm AL, sendo AH ajustado para zero. Caso falhe, toda a pa!avra AX «5 ajustada para I. A cha¬ 
mada PUTCHAR escreve um byte na safda-padrao. O valor de relorno para urna escrita bem-sucedida ć o byle eseri 
to; para urna falha ć — I. 

A chamada PRINTF produz safda de infornuiyiio formalada. O primeiro argumcnlo para a chamada ć o ende 
reyo de unia cadeia dc fomialo quc informa como formatar a safda. A scqiićncia “%d" indica que o prósimo argu¬ 
mento ć um inlciro na pilha. quc ć convertido h notaySo dccimal quando impresso. Do mesmo minio, "%x" eon 
verte para hexadecimal e “%o" convcrte para octal. Alćm do mais, "%s" indica quc o prósimo argumento ć urna 
cadeia que tennina em nulo, que <5 passada para a chamada por mcio de um endereyo de memória na pilha. O nume¬ 
ro de argumentos extras na pilha deve combi nar com o numero de indicayOes de convers3o na cadeia dc formato. 

Por esemplo. u chamada 

Printf(“x = %d and y = %d\n", x, y); 

imprime a cadeia com os valores numćricos de ,v e y subslitufdos no lugar das seqli6neias “%d” na cadeia dc for 
mato. Mais unia vcz, por compalibilidadc com C. a ordem na qual os argumentos siło pnssados i* “y". “x" c. por 
lim, o endereyo da cadeia dc formato. A raz3o para essa eonvenyao e quc printf leni um numero varidvel dc patii- 
melros e, passando os na ordem inversa, a cadeia dc formato em si 6 semprc a ultima c. portiinto. pode ser locali- 






i 


/uda. Se os paraniem is fossem pussados da esquerdu paru a direita, a eadeia de formulo ustana pcrdida na pilha e o 
procedimcnto primj nao sahcriu ornie eneontra-la. 

Na dtantuda SPRINTF. o primeiro argumento e o bul ter. para reueber a eadeia de suida, em ve/ da salda 
padiilu. Os ouiros argumentos sao os ntesmos que em PRINTF. A chamada SSCANF ć o invcrso da PRINTF no 
mesnio sentido de que o primeiro argumento e urna eadeia, que pode conter inteiros em notatko decimul. oclal ou 
ltexadecimal. e o prósimo argumento e a eadeia de fomtalo, que contem as indicaęftes de convcrsao. Os ouiros argu 
mentos sao endereęos de paluvras de memória para reeeber as informaęoes eonvertidas. Essas sub-rotinas dc siste 
mu sao muito versdtcis e um tratamenlo extensivo das possibilidades estaria tnuito ulem do escopo deste apendicc. 
Nu Seęao C.8. divcrsos cxcmplos mostram como elas podent ser usadas em diferentes situaęócs. 

C.4.7 Observaęóes finais sobre o conjunto de instruęoes 

Na definięao olicial do 8088, existe um prefixo ulteruęao de segmentu que faeilita a possibilidade de usar 
endereęos eletiuis de um segmento di terenie; isto ć, o primeiro endereęo de memória após u altcraędo e caleulado 
usando o registrjdor do segmento indicado. Por exemplo, u instruędo 

ESEG MOV DX,(BX) 

primeiro calcula-se o endereęo de BX usando o segmento exlra e, enlilo, move-se o conleudo para DX. Contudo, o 
segmento de pilha. no easo dos endereęos que usam SP, e o segmento extra, no caso de cudeius de instruęoes com 
o rugistrador Dl. ndo podem ser alterados. Os regislradores de segmentos SS, DS e ES podern ser usados na instru- 
ęao MOV, mas e impossivel mover dados imediatos para um registrador de segmentos, e esses regislradores nao 
podent ser usados em urna opcraęSo XCHG. A program aędo com mudanęas de regislradores de segmentos e altcrn- 
ęóes e hastante complicada e devc ser evitada sempre que poss(vel. O interpretador usu regislradores de segmentos 
fixos, portunto. nesse easo, udo surgern problemas. 

Instruęoes de ponlo Humanie estao disponfveis na maioria dos computadores, as ve/es diretumente no proces* 
sador, ds ve/es em um co processador isolado e, as ve/.es, somente inlerpretadas no software por meio de um lipo 
especiul de exceęao de ponto flutuante. A discussao dessas caracterfsticas estd fora do escopo deste apSndice. 

c 5 0 assembler 

Agora, ja terminamos nossa discussao da arquitetura do 8088. O próximo tópico 6 o software usado para pro- 
grumar o 8088 em linguagem de montugem, em particular as fenamentas que fomecemos para aprender programu 
ęao em linguagem de montagem. Em primeiro lugar, discutircntos o assembler, entao o rastreudor c, em seguida, 
passamos pata algumus informuęóes pniticus para suu utili/aęao. 

|J 5.1 Introduęao 

Atć agora, nos icfcriinos its instruęóes por sens ninemónicos, isto e, por nomes simhólicos fdceis de lembrar 
como ADD e CMP. Regislradores tumbćm forum denominados por nomes simhólicos, como AX c BP. Um programu 
escrito usando nomes siinbólicos paru instruęoes e regislradores ć denominado programu ent linguagem de mun- 
lagein Para executai tul prognima, em primeiro lugar ć necessdrio tradu/i-lo para os numeros binarios que u CPU 
realnienie enlende. (> programu i|ue converte um prograina em linguagem de montagem para numeros binarios ć 
um assembler. A snuła do assembler e denominada arquivo-objeto. Muitos programas fu/em chumadas its sub- 
rotinas jii niontadas e urma/enudus em bibliotecas. Para executar esses programas, o arquivo-objclo recem-monta- 
do e as sub-rotinas de hiblioteca que ele usa (tambćrn arquivos-ohjetos) deveni ser combinados em um unico arqui 
vo binario executavel poroutro prograina denominado ligador. Somente quando o ligador tiver montado o arquivo 
binario executavel a patlir de um ou mais arquivos-objetos 6 que a Iraduęao esta completaniente conclufda. Entao, 
o sistema operacional pode ler o urquivo binario executdvel para a memória e executii-lo. 

A primeira tarciu do assembler e montar urna tabela de simbolos, que e usadu para mapear os nomes de cons- 
tantes simbólicas e rótulos paru os numeros bindrios que eles representam. ('onstuntes que sflo detinidus direlamen- 
le no programu podem ser colocudas nu tabela de simbolos sem nenlium processamenlo. Todavia, rótulos represen 
lam endereęos cujos valores tulo sdo imediatamente óbvios. Para calcular seus valores. o assembler percorre o 
programu linhu por linlia, operuędo denominada priineiru passagem. Duninie essa passagem. ele contnila um eon 
Indor de lucalizaęao gerulnicnte indicado pelo simbolo pronunciado ponto (dot). Para cuda instruędo e reser 
va de menninu que for encontrada nessa passagem, o contador de localizaęao e auntentado por valor corresponden- 
te ao tumanho da memória necessaria para conter o iłem examinado. Assim, sc o tamanho das duas primciras 
iiislruęócs for 2 e 3 hytes, rcspeclivamente, entdo um rótulo na lerceira instruędo lerd o valor numćrico 5. Por exem- 
plo, se esse fragmenlo de código estiver no inicio de um programu, o valor de L serii 5. 

MOV AX,b 

MOV BX,5(K) 

L: 

No inicio da segundu passagem, o valor numćrico de cuda simbolo ć conhecido. Urna vez que valores numć 
ricos ilos mneinónicos de instruęoes sao constantcs, agora a geraęao de código pode comcęar. As instruęóes sao 
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lidas novamcnte, unia por vez. e seus valores binarios s§o cscrilos no arquivo-objeto. Quando a ultima instruęao 
estiyer montada. o arquivo-objcto estard conclufdo. 

C.5.2 O assembler as88, baseado ern ACK 

Esta seę3o descreye os detalhes do asscmblcr/Iigador a.t88, que e fomecido no CD-ROM e no sile deste livm 
e que funciona com o rastrcador. Esse asseinbler e o Amsterdam Compiler Kil (ACK) e seguc mais o modelu dos 
montadores UNIX do que o dos montadores MS-DOS ou Windows. O sfmbolo dc comcntdrio ncssc assembler ć o 
ponto dc exclamaęSo (!). Qualqucr coisa após um ponto dc exclatnaę3o atć o finał da linha ć utn comcntdrio c nao 
afcta o arquivo-objeto produzido. Do mesmo modo. linhas vazias s3o permitidas, porćm ignorndas. 

Essc assembler usa tres seęóes diferentes. nas quais o código traduzido e os dados scrao armazenados. Essas 
seęóes estdo relacionadas com os segmentos de memória da mdquina. A primcira 6 a seęao TEXT. para as instru- 
ęoes de proeessador. Em seguida vem a seęóo DATA. para a inicializaęSo da memória no segmentu dc dados. que 
ć eonhecido no infcio do proeesso. A ultima ć a seęao BSS (Błock Sturted by Symbol — bloco iniciado por sini- 
bolo). para a rcserva de memória no segmento de dados quc nao ć inicializado (isto ć, ć inieializado para 0). Cada 
urna dessas seęóes tern seu prńprio contador de Incalizaędo. A finalidade de ter seęóes ć permitir que ó assembler 
gere algumas instruęóes, entao alguns dados. em seguida algumas instruęóes, entao mais dados e assim por diante. 
e entao fazer com que o ligador reorganize os pedaęos de modo que todas as instruęóes estejam juntas no segmen¬ 
to de tcxto e todas as palavras de dados estejam juntas no segmento de dados. Cada linha de código de montagem 
produz salda para somente unia seę3o, mas linhas de código e linhas de dados pudem ser intercaladas. Durante a 
execuęao, a seęiio TEXT e amiazenada no segmento de texlo e os dados e seęóes BSS s3o armazenados (conseeu- 
tivamente) no segmento de dados. 

Urna instruęao ou palavra de dados no programu em linguagem de montagem pode comeęar com um rótulo. 
Um rótulo tambem pode aparecer sozinho em urna linha. caso em quc ć como se ele livessc aparecido na próxima 
instruęao ou pa!avra de dados. Por cxemplo, em 

CMP AX,ABC 

JE L 

MOV AX,XYZ 

L: 

L ć um rótulo que se refere ii instruęao de palavra dc dados que vem depois dela. Sao permitidos dois tipos de rótu¬ 
lo. O primeiro sao os rótulos globais. que sao identificadores alfanumćricos seguidos por dois-pontos (:). Todos 
csses rótulos devem ser exclusivos e nilu podem ser iguais a nenhuma palayra reservada nem mnemfinico de instru¬ 
ęao. Em segundo lugar, só na seęao TEXT, podemos ter rótulos locais. cada um dos quais consistc em um linico 
dfgilo seguido por dois-pontos (:). Um rótulo local pode ocorrer varias vezes. Quando um pritgrama contćm urna 
instruęSo tal como 

JE 2f 

isso signillea JUMP EQUAL para a frente atć o próximo rótulo 2. De modo semelhante. 

JNE 4b 

significa JUMP NOT EQUAL para trós atć o rótulo mais próximo, 4. 

O assembler permite que as constantes recebatn um nonie simhólico usando a sintaxe 

identificador = expressao 

na qual o identificador ć uma cadeia alfanumerica, como em 

BLOCKSIZE - 1024 

Como todos os identificadores em linguagem de montagem, somente os primeiros oito earacteres sao signili 
calivos, portanlo BLOCKSIZE e BLOCKSIZZ sao o mesino simbolo, a saber, BLOCKSIZ. Expressóes podem ser cons- 
truidas com constantes, valores numćricos e operadores. Rótulos sao considerados constantes porque no finał da 
primeira passagein seus va!ores numćricos sao conhecidos. 

Valores numericos podem ser octais (comeęando com um 0), decimais ou hexadecimais (comeęando com 
0X ou 0x). Ntimcros hexadecimais usam as letras a ate f ou A atć F para os yalores 10 atć 15. Os operadores de 
inteiros sao +. . *. / e %, para adięao, sublraęao. mulliplicaęao, divisflo e resto, respectivamenle. Os operadores 

lógicos sao &, c . para AND bit a hit, OR bit a bit e complemento lógico (NOT). respectivumente. Expressóes 
podem usar colchetes | e ] para agrupamento. Parentcscs NAO sao usados, para evitur confusao com modos de 
cndcreęamento. 

Rótulos em expressóes devem ser nianuseados dc um modo sensato. Rótulos de instruęao nao devem ser sub- 
trafdos de rótulos de dados. A diferenęa entre rótulos compardveis ć um valor numćrico, mas nem rótulos nem suas 
difcrenęas siło permitidos como constantes em expressoes multiplicativas ou lógicas. Expressóes que sao permiti¬ 
das em delinięóes de constantes tambem podem ser usailas como constantes em instruęóes do proeessador. Alguns 
assemblers tein lacilidade de macro. pela qual mulliplas instruęóes podem ser agrupadas e receberem um nomc, 
porem o as88 nao tern cssa caraeterfstica. 







Titiitiia c.s As pseudo-instruęóes do as88. 



SECT .TEXT 
SECT DATA 
SECT .BSS 
BYTE 
WORD 
KONG 
ASCU ‘sir” 
ASCIZ W 
SPACEn 
AUGNn 


Monte as linhas seguintes na aeę&o TEXT 

Monte as linhas seguintes na seę&o DATA 

Monte as linhas seguintes na seę&o BSS 

Monte os argumentos como uma seąu&ncia de bytes 

Monte os argumentos como uma seąiiencia de palavras 

Monte os argumentos como uma seąuencia de longos 

Atmazene str como ascii uma cadela sem um byte zero no finał 

Armazene str como ascii uma cadeia com um byte zero no finał 

Avance o contador de localizaęSo n poslędes 

Avance o contador de localizaęao ate uma fronteira de n bytes 


EXTERN Identificador e um nome eztemo 


Tatioia c 6 Alguns dos caracteres especiais 
permitidos por as88. 


I Simboio de escape 

Descrięao ^ 

\n 

Nova linha (avanęo de linha) 

\t 

Tab 

W 

Barra invertida 

\b 

ReUocesso 

\f 

Alimentaęao de formulario 

\r 

Retomo de carro 

\* 

Aspas dupias 


Fm lodu linguugein de montagem ha ulgumas dire(ivus que influencium o prnccsso dc numiugcnt cm si. mus 
que lido sao trudu/idas paru código bindrio. Flus siio dcnominailus pseudo-instruędes. As pseudo-instruędes do 
usHH esiao relucionuilas na Tabela C.S. 

O primeiro bloco de pseudo-instruędes delermina a seęao nu qual as linhas seguintes devem ser proccssadas 
pelo ussembler. lim geral. u requisięao de uma tal seęao 6 feitu ent uma linhu separada e pode ser colocada em qual- 
quer lugar do cddigo. Por razócs de implementaęao, a primeira seęao a ser usada deve ser u seęfio THXT, entao a 
seęao DATA e, cm seguida, u seęao BSS. Após cssus relerćneias nuci ais, as seędes podem ser usadas em quuk|uer 
ordem. Alem disso. a primeira linha de uma seęao dcve ter um rótulo global. Ndo ha outras restriędes para o orde- 
namenio das seędes. 

O segundo bloco de pseudo-instruędes contćm as indicaędes de lipo de dados para o segmento de dados. Ud qua- 
tro tipos: .BYIE, .WORD. LONG e cadeia. Após um rótulo opcional e a palavra-chave da pseudo-inslruęao, os primei- 
ros tres tipos esperam, no restante da linha, uma lista de expressdes constanles. separada por vfrgulas. Para cadeias, hd 
duas paluvrus-cha\e, ASCII e ASCIZ, e u unica diferenęa e que a segunda palavra cltave udiciona um byte zero uo finał 
da cadeia. Ambas iequcrein uma cadeia enlre aspas duplas. Ha v<irias seqiiencius ile escape pennitidas cm definiędes 
de cadeia. Apresentamos alguns deles na Tabela ('.6. Alćm desses, qualquer caruetere especffico pode ser inserido por 
uma barra invertida e uma representaęao octal, por exemplo, \377 (no maximo trfis dfgitos, nenhunt 0 rcquerido aqui). 

A pseudo-inslruęao SPACE simplesmente requer que o ponteiro de localizaędo seju inerementudo pelo mime- 
ro de bytes dado nos argumentos. Hssa palavra-chave ć especialmentc util em seguida ao rótulo no segmento BSS 
para reservar memona para uma variavel. A puluvra-chavc ALIGN e usada para avanęaro ponteiro de liKali/aęiio atć 
a primeira fronteira de 2, 4 ou 8 bytes na memória para facilitar u montagem dc palavras, longos etc. em uma loca- 
lizaę&o de memória udequada. Por lim. a palavru-chave EXTERN anuncia que u rotina ou loculi/.aęao de memória 
mencionada licurii disponfvel ao ligador para referencias exteroas. A definięao nSo preeisa eslnr no arquivo corren- 
le; ela lamhem pode estar em algum outro lugar, contanto quc o ligador [Kissa mauusear a relerencia. 

Emlwra o ussembler em si seju razoavelmentc geral, quando ele e usado com o rastreador vulc a pena obscr- 
vur alguns pequenos pontos. O ussembler aceila palavras-cliave em maiusculas ou mindsculas, mas o rastreador 
sempre as upresenta em maiusculas. De modo semelhante, o ussembler aceila ambos, “\r” (retomo de carro) e “\n" 
(nosa linha) como iudicaęao de umu novu linha, mus o rastreador usa a ultima. Alóm do mais, embora o ussembler 
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possa manusear programas subdivididos eni varios arquivos, para usa-lo com o rastreador, o programa inleiro deve 
estar em linico arquivo eon) extensao Dcntro dele pode-se requisitar a inclusSo de nrquivos eorn o comando 

#include nome_do_arquivo 

Nesse caso, o arquivo rcquisitado tambćm ć escrilo no arqoivo conibinado na posięiio da requisię3o. O 
assembler verifica se o comando Include ja foi processado e carrega apenas uma cópia. Isso ć de especial utilidade 
se vdrios arquivos usarem o mesino cabeęallio de arquivo. Nesse caso. somente unia cópia ć inclufda no arquivo- 
fonte combinado. Para incluir o arquivo. a ffinclude deve ser o primeiro elemento da linha sem deixar espaęos cm 
branco na frente e o caminhn do arquivo devc eslar enlrc aspas duplas. 

Se houver um unico arquivo-fontc, por exemplo, pr.s, enlao adtnile-se que o nome do pmjeto ć /»/-. c o arquivo 
conibinado serd pr.$. Se ho«ver mais de um arquivo-fontc, entao o nome de basc (basename) do primeiro arquivo e 
considerado como o nome do projeto (projeetnamc) c usado para a definięSo do arquivo quc e gerado pclo assem¬ 
bler concatenando os arquivos-fonte. Esse comportamcnlo pode ser cancclado se a linha de comando conliver um 
flag “—o projname" anles do primeiro arquivo fonte. caso em que o nome do arquivo conibinado serd projname.$. 

Nole que lid algumas desvanlagens em usar Include e mais de uma fonie. E necessdrio que os nomes dos rólu- 
los, varidveis c conslantes sejam difcrenles para todas as fonies. Alćm do mais, o arquivo quc for evcnlualmenie 
montado para ser carregado ć o arquivo projname.$, portanlo os niinieros de linha mencionados pelo assembler em 
caso de erros c avisos sdo determinados em relaędo a esse arquivo. Para projelos muito pequenos. ds vezcs ć mais 
simples colocar o programa inleiro em um arquivo e evitar tiindude. 

C.5.3 Algumas diferenęas com outros assemblers 8088 

O assembler. ax88, 6 niodelado conforme o assembler padrao UNIX e, como tal. ć difcrenle. em alguns aspec- 
tos, do Microsoft Macro Assembler MASM e do assembler Borland 8088 TAŚM. Esscs dois assemblers forani pro 
jetados para o sistema operacional MS-DOS e eni certos aspectos as questóes do assembler e as queslóes do siste- 
ma operacional eslao inlimamente relacionadas. Ambos. MASM e TAŚM suportam todos os modelus dc memória 
do 8088 permitidos pelo MS-DOS. Hd, por excmplo, o tnodelo de memória miniisctila. no qual todo o código e os 
dados devem caber em 64 KB. o tnodelo pequeno. no sjual o segmenlo de código c o segmentu de dailos cada um 
leni 64 KB, e modelos gramlcs. que contem vdrios segmentos de código e de dados. A diferenęa entre esses modę- 
los depende ila ulilizaęao dos registradores de segmentos. O modelo grandę permite chamadas distantes c altera o 
registrador DS. O processador em si impoc algumas reslrięóes aos registradores de segmentos (por cxemplo, o regis- 
trador CS n5o e permitido como destino cm uma instruęao MOV). Para simplificar o rastreamento. o modelo de 
memória usado em as88 ć parecido com o modelo pequeno. embora o assembler, sem o rastreador. possa mnnipu 
lar os registradores de segmentos sem rcstrięócs adicionais. 

Esscs outros assemblers n9o tfim unia seęao .BSS e inicializam a memória somente nas seęócs DATA. 
Geralmente o arquivo do assembler comeęa com alguma informaę3o de cabeęalho, eni seguida passa para a seędo 
DATA. quc ć indicada pela palavra-chave .data. seguida pelo texto do programa depois da palavra-chave .codę. O 
cabeęallio tern unia palavra-chave title para noniear o programa. uma palavra-chave .model para indicar o modelo da 
memória e uma palavra-chave .stack para reservar memória para o segmento dc pilha, Se o hinario pretendido for 
um arquivo .com, entao o modelo minusculo ć usado, todos os registradores de segmentos sao iguais e no tftulo 
desse segmento combinado sao reservados 256 bytes para um “Pralko de segmento de programa". 

Em vez das diretivas WORD .BYTE e ASCIZ. esses assemblers tćm |ialavras-chave DW para definir patowa e 
DB para definir byte. Após a diretiva DB, pode ser definida uma cadeia dentro de um par dc aspas duplas. Rótulos 
para dcGnięoes dc dados nao sao seguidos por dois-pontos. Grandes poręfies da memória sao inicializadas pela pala- 
vra-chave DUP, que e precedida por uma contagem e seguida dc uma inicializaęao, por cxcmplo, a declaraęao 

UBEL DB 1000 DUP (0) 

inicializa 1.000 bytes dc memória com bytes dc valor ASCII zero no rótulo IAHFA.. 

Alćm disso, rótulos para sub-rolinas nao sao seguidos por dois-pontos, mas pela palavra-chavc PROC. No finał 
da sub-rotina, o rótulo 6 repetido c seguido pela palavra chave ENDP. de modo que o assembler pode inferir o cxato 
cscopo de uma sub-rotina. Rótulos locais nao siło suportados. 

As palavras-chave para as instruęfics sao identicas cm MASM. TAŚM e as88. Alćm disso, a fonie ć colocada 
após o destino ern instruęóes de dois operandos. Todavia, ć prńtica comum usar registradores. em vez dc uma pilha, 
para passar argumentos para funęóes. Contudo. se forem usadas rotinas de monlagem dentro de programas C or C++. 
entao ć aconselhdvel usar a pilha para ficar de acordo como mecanismo dc chamada de suh rotina em C. Essa nilo 
ć uma diferenęa real, vlslo que. em as88 tanibćm e possfvel usar registradores em vcz da pilha para argumentos. 

A maior diferenęa entre MASM, TAŚM e as88 estd na realizaęao de chamadas de sistema. Em MASM e 
TAŚM, o sistema ć chamado por mcio de uma interrupęiio de sistema INT. A mais comum e INT 2IH, que ć desti- 
nada as chamadas de funęao do MS-DOS. O mimem da chamada ć colocado em AX. portanlo. mais uma vez, tenios 
passagem de argumentos em registradores. lid vetores de interrupęiio e miniems dc interrupęao tlifcrcntes para equi- 
pamentos diferentes, por exemplo, INT I6H para as funęóes de teclado BIOS e INT IOH para o monitor. Para progra- 
mar essas funęóes. o programador tem dc estar cienie de uma grandę quantidade de inforniaęócs que dependein do 
dispositivo. Por comparaęao. as chamadas de sistema UN1X disjninfveis em as88 sao muito mais fdceis dc usar. 


a 

■ 



c.6 O rastreador 

O rastreador dcpurador deve exccutar cm urn terminal norma! de 24 X 80 t VI' 100), com os comandos ANS1 
pudronizudos para lerminais. Em maquinus UN1X ou Lintu, o emulador de terminal no sistema X-window geral- 
menie eumpre os requisilos. lim mdquinas Windows, o driver ansi.sys normalmente tern de ser carregado nos arqui- 
vos de iniciulizaęao do sistema como descrevemos adianle. Ja vimos o layout da janela do rastreador nos exemplos 
do rastreador. Como se pode ver na Figura C.4, a tela do rastreador e subdividida em sete janelas. 

A janela supei tor esquerda 6 a janela do processador, que exibe os registradores gerais em notaęiio decimal e 
os outros registradores em hexadecimal. Urna vez que o valor numerico do contador de progruma nao e muito ins- 
trulivo, a posiało no código-fonte do progranta em relaęao ao rondo globid anterior ć fornecida na linha abaixo dele. 
Acima do campo ile contador de programu sao mostrados cinco códigos de condięao. Excesso e indicado por um 
"y", o Hag de direętio por “>" para aumentar e por “<” para diminuir. O Hag de sinal e “n”, para negativo ou “p" 
para zero e posilivo. O (lag de zero e “z” se mareado, e o flag de vai-um marcado ć “c”. Um indica um flag 
nao marcado. 

A janelu supei ior do meto e osada para a pilhu, exibida em hexadecimal. A posięao do ponteiro dc pilha e indi- 
cada por urna seta —>". tndereęos de retomo e sub-rotinas sao indicados por um dfgito a frentc do valor hexade- 
cirnal. A janela superior direita exibe urna parte do arquivo-fomc na vizinhanęa da próxima inslruęao a ser execu- 
tada. A posięao do contador de programu tamhćm e indicada por urna seta 

Na janela soh o processador sao exibidas as posięoes mais recentes das chamadas de sub-rotina de código- 
fonte. Diretamentc abaixo dela estaS a janela de comandos do rastreador. que apresenta o comando previamentc emi- 
tido nu parte de cinia e o cursor de comando na parte de baixo. Notę que cudu comando prccisa ser seguido por um 
rctorno do carro (Enter em teclados de PC). 

A janela de batxo pode conter seis itens de memória dc dados globais. Cudu item inicia com uma posięao rela- 
tivu a algum rótulo, scguida pcla posięao absolutu no segmento de dados. Logo após, vem dois-ponlos, e entao oito 
bytes em hexadecimal. As 11 posięfles seguintes sao reservadas para caracteres, seguidas por quatro represenlaęóes 
de palavra decimal. Os bytes, os caracteres e as palavras representam o mesmo conleudo de memória, embora lenha- 
inos trfis bytes extrus para representaęao de caracteres. Isso 6 conveniente, porque nao Dca claro, desde o intcio, se 
os dados serao usados como inteiros com sinal ou seut sinal, ou como uma cadeia. 

A junela do meio a direita 6 usaila para entrada e saida. A primeira linha ć para saida de erro do rastreador, a 
segunila linha para entrada e entao h£ algumas linhas reservadas para saida. A saida de erro e precedida pela letra 
“E”, a entrada por um T e a saida padrao por uin Na linha de entrada ha uma seta para indicar o pon¬ 
teiro que deve ser lido em seguida. Se o programu chamar read ou gelchar, a próxima entrada na linha de coman¬ 
do do rastreador eslard entrando no campo de entrada. Alćrn disso, nesse caso, ć necessario terminur a linha de 
entrada com um retomo. A parte da linha que aitula nao foi processada pode ser encontrada após u seta 

Em geral, o rastreador le seus comandos e suas entradas a partir da entrada padrao. Contudo, tainbem e pos- 
sfvel preparar um arquivo de comandos de rastreador e um arquivo de linhas de entrada u serem lidos antes de pas- 
sar o controle para a entrada padrao. Arquivos de comando do rastreador tern extcnsócs .r e arquivos de entrada .i. 
Na linguagem de mmitagem, podem-se usar caracteres muidscutos e mitnisculos para palavras-chave, sub-rotinas 
de sistema e pseudo-instruęóes. Durante o processo de montagem e leito um arquivo com extensao .$ no qual as 
palavras chavc em minusculas sao trailuzidas para maiusculas e caracteres de retomo de carro sao descartados. 
Desse modo, para cuda projeto, por exemplo, pr, podemos ter ate seis arquivos diferentes: 

1. pr.s para o código-fonte de montagem. 

2 . pr.$ para o urquivo-fonte composto. 

3. pt.HH pani o arquivo de carga. 

4. pr.i para saida padrao prć-ajustada. 

s. pr.i para comandos de rastreador pre-ajustados. 

6 . pr.# para ligar o código de montagem ao arquivo de carga. 


Processador 


Texto do programa 

com 

Pilha 


registradores 

_ 

Arqulvo-fonte 

Pilha 

de chamadas 
de sub-rotinas 

Campo de entrada de erro 

Campo de entrada 

Campo de satda 

Comandos 
do interprelador 


\/alores de varińveis globais 



Segmento de dados 


As janelas do rastreador. 
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O ul limo arquivo ć usado pelo raslreador para preencher a janela superior direita e o campo dc contador de 
programa no monitor. Alem disso. o raslreador verifica sc o arquivo de carga foi criado após a ultima modiflcaęiio 
do programa-fonle; se nao foi, ele emile uma adverteneia. 

C.6.1 Comandos do rastreador 

A Tabela C.7 aprescnla uma relaęóo de comandos do rastreador. Os mais importanles sao o comando de retor- 
no tinico, que ć a primeira linha da tabela c quc cxecuta exatamcntc uma instruęOo de processador, e o comando de 
safda ej, na ultima linha da tabela. Se for dado um nu mero como um comando, cntao csse mimem de insiruęóes ć 
executado. O ntiincro k ć equivalentc a digitar um retorno k vezes. O mesmo efeilo ć conseguido se o numero Tor 
seguido de um ponto dc exclamaęśio, /, ou de um X. 

O comando g pode ser usado para ir atć certa linha no arquivo fonte. HA tres versiies desse comando. Se ele 
for prccedido por um numeru de linha, cnlóo o rastreador executa atć que essa linha seja encontrada. Com um rótu- 
lo /T, com ou sem +#. o numero da linha na qual parar ć computado a panir do rótulo de instruęBo T. O comando 
g, sem qualquer indicaęao que o preceda, faz que o rastreador execute comandos atć que o mimem da linha corren- 
le seja encontrado novarnente. 

O comando]//n/;c/ ć diferente para um rótulo de instruęao e para um rótulo de dados. No caso de rótulo de 
dados, uma linha na janela de baixo ć preenchida ou substitufda por um conjunto de dados que comeęam com aque- 
le rótulo. Para um rótulo de instruęao, ele e equivalente ao comando g. O rótulo pode ser seguido de um sinal de 
mais e um numero (indicado por # na Tabela C.7). para obter um deslocamento em relaęao ao rótulo. 

£ possfvel estabelecer um ponto de parada em uma instruęao, o que ć feito com o comando b, que, por opęao, 
pode ser prccedido por um rótulo de instruęao, possivelmente com um deslocamento. Se for encontrada uma linha 
com um ponto ile parada duranlc a execuęao, o rastreador póra. Para conteęar de novo a partir de um ponto de para¬ 
da. ć requerido um comando dc retorno ou de execuęao. Se o rótulo e o numero forem omitidos. entao o ponto de 
parada e estabelecido na linha corrente. O ponto dc parada pode ser liberado por um comando de libemęSo de ponto 
de parada, c, quc pode ser prccedido por rótulos e numeros. como o comando b. liii um comando de cxecuęlio. r. no 
qual o raslreador executa atć ser encontrado um ponto de parada, uma chamada de safda ou o (inni dos comandos. 

O rastreador tambćm monitora o nfvel de sub-rotina no qual o programa estó cxccutando. Isso ć mostrado 
na janela abaixo da janela dc processador c tambćm pode ser visto por tneio dos numeros de indicaęao na jane¬ 
la de pilha. Hó trćs comandos que s3o baseados nesses nfveis. O comando - faz quc o rastreador execute atć que 
o n(vel de sub-rotina seja um menos do que o n(vel corrente. A tarefa ilesse comando ć executar insiruęóes atć 
que a sub-rotina corrente seja conclufda. O inverso ć o comando +, que cxecuta o rastreador atć encontrar o pró- 
ximo nfvel de sub-rotina. O comando = executa atć encontrar o mesmo nfvel e pode ser usado para executar uma 
sub-rotina no comando CALL. Se for usado =, os detalhes da sub rolina nao sao mostrados na janela do rastreador. 
Mii um comando rclacionado, n , que executa atć ser encontrada a próxima linha no programa Hsse comando ć 
especialmente litil quando einitido como um comando LOOP; a exccuęao póra exatamente quando ć executado o 
finał do laęo. 

c.7 Como comeęar 

Nesta seęao, explicaremos como usar as ferramentas. Antes de mais nada, ć necessario localizar o software para 
sua plataforma. Temos vers5es prć-compiladas para Solaris, UN1X, para Linux e para Windows. As ferramentas estao 
na Web em www.prenhall.cont/ttmenbaum_br. Descompaete o arquivo z.ip selecionado para um diretório assemhler. 
Esse diretório e seus sub-diretórios contćm todo o materiał necessório. Os principais diretórios encontrados no sile sao 
Rigendn a. D1endNx e MSWindns. e em cada um deles hó um subdiretório assemhler que cnntćm o materia). Os tres 
diretórios dc nfvel mais alto sao para UN1X Big Endian (porcxemplo. estaęóes de trabalho Sun), UN1X l.ittle Endian 
(por exemplo, Linux cm PCs), e sistemas Windows, respectivainente. 

Após descompactar ou copiar, o diretório do asscmblcr deve conter os seguintes subdiretórios e arquivos: 
READ_ME, bin, as_src, trcejsrc. examples e exercise. As fontes pre-compiladas podem ser encontradas no diretó¬ 
rio bin, mas. por conveniencia, hó tambćm uma cópia dos binórios no diretório exaniples. 

Se quiscr uma rópida visao antccipada de como o sistenia funciona, abra o diretório examples c digite o comando 

t88 HlloWrld 

Esse comando corresponde ao primeiro exemplo na Seęao ('.8. 

O código-fonte para o assemhler estó no diretório as_src. Os arquivos dc código-fonte estao em linguagem C, 
e o comando make deve recotnpilar as fontes. Para plalaformas compalfveis com POSIX. hó um Makejile no dire- 
tório-fonte que faz o servięo. Para Windows, hó um arquivo dc lolc make.bal. Talvez seja necessario mover os aiqui- 
vos cxecutóveis após compilaęao para um diretório de programa, ou mudar a varióvcl PAI H para tornar o assem- 
bler as88 e o rastreador t88 visfveis a partir dos diretórios que contćm os códigos-fontes de montagem. Como 
altemativa, em vez de digitar t88. pode ser usado o noine completo do caminho. 

Em sistemas Windows 2(KX) e XP, e necessario instalar o driver de tenninal ansi.sys adicionando a linha 

device=%systemBoot%\System3?\ansi sys 


a 



ao arquivo de cnnfiguruęau, config.nt. A localizaęSo desse arquivo 6 a seguinte: 

Windows 2000: \wlnnt\system32\config.nt 
Windows XP. \wlndows\syslem32\config.nt 

Em Windows 95, 98 e ME, o driver deve ser adicionado a config, sys. Em sistemas IJN1X e Limu, o driver geral- 
mente ć padrao. 

Tabela c.7 Comandos do rastreador. Cada comando deve ser seguido por um 
retorno de carro |a tecla Enter). Um retangulo vazio indica que apenas um 
retrocesso de carro e necessario. Comandos sem campo Address na lista acima 
nao tern endereęo. 0 simbolo # representa um deslocamento de inteiro. 


1 Endereęo 

i Comando 

Eseropto 

Descrięao | 

# 

,I.X 

24 

Execute uma instruęao 

toecute # uistruęoes 

/T+# 

0 .1. 

/start+5g 

Executa atś linha # após rótulo T 

/T+# 

b 

/start+5b 

Ponha ponto de parada na linha # após rótulo T 

/T+# 

c 

/start+Sc 

Remova ponto de parada na linha # 

# 

0 

I08g 

Execute programa atś Unha # após rótulo T 


0 

0 

Execute programa atś linha corrente novaraente 


b 

b 

Ponha ponto de parada na linha corrente 


c 

c 

Remova ponto de parada na Unha conente 


n 

n 

Execute programa atś próxlma linha 


r 

r 

Execute atś ponto de parada ou finał 


- 

= 

Execute programa atś mesmo nivel de sub-rotina 


- 

- 

Execute atś nivel de sub-rotina menos 1 



+ 

Execute atś nivel de sub-rotina mais i 

/D+# 


/buł+6 

Apresente segmento de dados no rótulo+# 

/D+# d 

,1 

/buf+6d 

Apresente segmenlo de dados no rótulo h # 


R. CTRL L 

R 

Renove janelas 


q 

q 

Parę rastreamento, volte ao processador de comando 


c 8 Exemplos 

Da Seęao C.2 ale a Seęao C.4, discutimos o processador 8088, sua memória e suas instruęóes. Em seguida, na 
Seęóo C.5, eśtudumos a linguagem de montagem as88 usada nesse tuiorial. Na Seęao C.6, estudamos o rastreador. 
Por tim, nu Seęao C.7, descrevemos como montar o conjunto de ferramemas. Em teoria, essas intbrmuęóes san sufi 
cicntes paru escrever e depurar programas de montagem com as ferramentas fomecidas. Ainda assiin, talvez seja 
dlii para muitos leitores ver alguns exemplos detalliados de programas de monlagem e como elcs podcm ser depu- 
rados com o rastreador. Esla e a finalidade desta seęao. Todos os cxemplos de programas discutidos nesta seęao 
estao disponfveis no diretório exumples do conjunto de Icrramentus. Aconselhamos o leitor u monlar e rastrear cada 
um dcles a medidu que ć discutido. 

c. 8.1 Exemplo Hello World 

Vamos iniciar com o exemplo da Figura C.5, HUoWrld.s. A listagenr do programa aparece na janela esquerda. 
Urna vez que o simbolo de comentario do assembler e o ponto de exclamaęao (!), ele e usado na janela de progra¬ 
ma para separar as instruęóes dos numeros dc linha que vem depois delas. As tres primeiras linhas conlem defini- 
ęoes de constantes, que conectarn os nomes convencionais de duas chamadas de sistema e o arquivo dc saula h suas 
correspondenles representaęóes intemas. 

A pseudo-instruęao .SECT, na linha 4, declara quc as linhas seguintes devem ser consideradas como parte da 
seęńo THXT; isto e, instruęóes dc processador. De modo scmelhanle, a linha 17 indica quc o que vem a seguir deve 
ser considcrado dados. A linha 19 inicializa urna cadeia de dados que consiste cm 12 bytes, incluindo um cspaęo c 
urna nova linha (\n) no Hnul. 

As linhas 5. 18 e 20 conlem rótulos, quc sao indicados por dois-pontos:. Esses rńtulos representam valores 
numćricos, semelhames ii constantes. Contudo, nesse caso, o assembler tern de determinar os valores numćricos. 
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Uma vcz que starł estard no comcęo da seędo TEXT, seu valor serd 0. mas o valor cle quais<|iier rótulos subscqiien- 
tes na seęSo TEXT (nao presentes nesle exemplo), depetuleriam de quantos bytes de código as precedem. Agora, 
considere a linha 6. Essa linha termina com a diferenęa cnlre dois rótulos, quc e uma constante, em termos nume 
ricos. Assim, a linha 6 e, para qualqucr efeito. a mesma quc 
MOVCX,12 

com a exceę3o que detJta o assembler dclerminar o comprimento da cadeia em vez de obrigar o pmgramadnr a fazer 
isso. O valor indicado aqui e a quantidade de cspaęo nos dados reservada para a cadeia na linha 19. A MOV na linha 
6 ć o comando dc cópia, que requcr quc o valor de -hw seja copiado para CX. 

As linhas 7 ate II most rant como sao feitas chamadas de sislema no conjunto de fcrramcntas. Essas cinco 
linhas sao a traduęao em código dc montagem da chamada de lunęao em linguagem C 
write(1. hw. 12); 

cm que o primeiro pardmetro e o dcscritor dc arquivo para safda padrao (1), o segundo ć o cndcreęo da cadeia a ser 
imprcssa (hw), c o tcrceiro € o comprimento da cadeia (12). As linhas 7 a 9 passam esses pariłmetros pani a pilha 
na ordcin inversa. quc ć a seqiiencia dc chamada em C. e que ć a usada pclo rastrcador. A linha 10 passa para a pilha 
o mimem da chamada de sistemn para write (4). e a linha 11 faz a chamada propriamentc dita. Embora essa seqiićn 
cia de chamada imile o modo como um progranni cm linguagem de montagem propriamente elito funcioimria em 
urn PC UNIX (ou Umix), no caso dc um sistema operacional diferentc. cla teria dc ser ligeiramente modificada para 
usar as eonvenęóes dc chamada do sistema operacional cm questao. Contudo. o assembler as88 e o rastreador 188 
usam as ćonvenę3es de chamada UNIX ainda quc elas estejam execntando em Windows. 

A chamada de sistema na linha 11 executa a impressito propriamente dita. A linha 12 faz uma limpeza na pilha. 
reajuslando o ponteiro de piliła para o va!or que tinha anles que as quatro palaeras dc 2 bytes fosscm passadas para 
a pilha. Sc a chamada write for bem-sucedida, o numeru de bytes escrito e retornado em AX. A linha 13 subtrai o 
resultado da chamada de sislema após a linha 11 do comprimento da cadeia origina! cm CX para ver sc a chamada 
foi bem-sucedida. isto ć, para ver se todos os bytes forant escritos. Assim. o status de safda do programn serii 0 quan- 
do houver sucesso e alguma outra coisa quando houvcr fracasso. As linhas 14 e 15 preparam para a chamada de sis¬ 
tema exit na linha 16 passando para a pilha o status de safda e o código de funęSo para a chamada EXIT. 

Notę que. nas instruęóes MOV e SUB, o primeiro argumenlo e o destino e o segundo, a fonte. Essa ć a conven- 
ęao usada por nosso assembler; outros assemblers podcm inverter a ordern. Nao lid nenhuma razao particular para 
escolher uma ordem ou a outra. 

Agora, vamos tentar montar e executar HlloWrld.s. Serao dadas instruęócs para as plataformas UNIX e 
Windows. Para Linux, Solaris, MacOS X e outras variantes do UNIX. o procedimento deve ser cssencialmente o 
mesmo que para UNIX. Em primeiro lugar, inicie uma janela de prompt de comando (shell, ou interpretador dc 
comandos). Em Windows, a scqiiencia de cliques 6, em geral. 

Start > Programs > Accessories > Command prompt 

Em seguida, mudc para o diretório examples usando o comando cd (Change directory). O argumentu para esse 
comando depende do local onde o conjunto dc fcrramcntas foi colocado no sistema dc arquivo. I ntrio. vcrifique sc 
os bindrios do assembler e do rastreador est3o nesse diretório usando Is cm sistemas IJN1X e dir cm sistemas 
Windows. Eles sao denominados as88 c 188, respcctivaincntc. Em sistemas Windows, eles tern a cxtens3o .e.xe, mas 
nao e preciso digita-la nos comandos. Se o assembler e o rastreador nao estiverem ali. voce deve acha los e cnlao 
copiii-los para esse diretório. 

Agora, monie o programa de leste usando 


Figura C.S 

(a| HlloWrld.s. |b| A janela 
correspondente no 
rastreador. 


.exi t • i 
write =< 

STDOUT -I 
SECT TEXT 
start 

MOV CX.rfa.hw 
Pt/SH CX 
PUSH hw 

push sroour 

PUSH WRITE 
SYS 

ADO sp. a 
SUB CX,AX 
PUSH CX 
PUSH EXIT 
SY8 

SECT DATA 


|rfa BYtE 0 

(a) 


00 DS-SS-ES: 003 
00 AL:0c AX 12 

00 BL:00 BX 0 

00 CL:0o CX: 12 

00 DL:00 OX: 0 

7«da sr o o s z c 

0000 CC - > p - 

0000 IP:OOOc:PC 
0000 91 fi r t .7 


MOV r.;x.d»>w 
PUSH CX 
PUSH HW 
PUSH STDOU' 
PUSH WRItP 
SYS 

AOD SP.8 
SUB C X, A X 
PUSH CX 


Wnritf 2S92B 


a 



w 


Sc o ussemhlcr cstivcr picsenle no diretório ejciunples, no cntunlo, se esse cotnamlo der unia mensagcin dc erro, 
lenie oulru vez, digilando 
,/as88 HlloWrld.s 
em .sistemus UNIX ou 
.\as88 HlloWrld.s 
cm sistemus Windows. 

Sc o processo de moniagcm concluir correlamcntc, as seguintes inensagens serSo apresentadas: 

Project HlloWild lislfile HlloWrld $ 

Project HlloWrld num file HlloWrld # 

Project HlloWild loadlile HlloWrld.88. 

c os irćs arquivos correspondentes serao criados. Sc n5o houver nenhuma mensagem de erro, dfi o comundo dc 
rasireador: 

188 HlloWrld 

O visor ilo rasireador apareceni com a seta na jancla superior direila aponlando para a mstnięfto 
MOV CX de-hw 

da linha 6. Agora, aperte a tecla de relomo (Enler cm leclados de PCs). Notę quc a instruęao aponiada dcsla vez ć 
PUSH CX 

c o valor de CX na junela da esquerda agora ć 12. Aperte mwamente a leela dc relomo e observc quc a jancla do 
meio na linha de cima desta vcz contem o valor OOOc, quc ć hexadecimal para 12. Essa jancla mostra a pillia, que 
agora lein urna palavra que contein 12. Novamente, aperte a tecla dc relomo mais ire.s vezcs paru vcr a execuęHo 
das inslruęóes PUSH nas linluis 8, 0 e II). Nessc ponto, a pillia tera quairo itens c o coiuador de programu na janc¬ 
la esqucrda tera o valor (KX)b. * 

Nu prosima vcz que a tecla de relomo for ucionadu, a chamiała de sislema serd execulaila e a cadeia "Hello 
World\n" sera aprcscnladu nu jancla interior direila. Notę que, agora, SP tern o valor 0x7111). Após o próximo relor- 
no. SP e incrcincniudo de 8 c se tomu Ox7ff8. Após mais quulro relurnos, a chumada de sislema exit conclui c o ras¬ 
ireador sai. 

Para ler certc/a dc que \oce cnlendeu como ludo funeiona, husquc o urquivo hlloWrlds em seu edilor favori- 
lo. E mellior udo usai um proccssador de texto. Em sistemus UNIX. ca, vi ou enuics sdo boas opęócs. Em sistemus 
Windows, nairputl e um edilor simples. que gcralmenle pinie ser alcanęudo por 
Start > Programs > Accessorles > Notepad 

Nao usc Woni, unia vez que o display ndo purecera correto e u saldu poderd eslar formutuda iucorrctamcnlc. 
Moditique a cadeia nu Imlui 10 paru apresentur urna mensagem diferente, entao salce o arquivo, monte-o e cxc- 
cuie o com o rasireador. Agora voeć esia comeęando u 1‘azer progrumaęAo cm linguagem de moniagcm. 

c.8.2 £xemplo de registradores gerais 

O próximo eacmplo dcmonstra com mais detulhes como os registradores sao aprcsenlados e urna das ciladas 
da muliiplicuydo no 8088. Nu Figura C.6, parte do programu genKeg.s ć most rada no lado esquerdo. A direila dessa 
jancla estdo duas junelas de registradores do rasireador correspondentes a diferentes estagios da execuę&o do pro- 
grama. A Figura C.6|b) mostra o estado do registrudor após a exccuęao da linha 7. A instruęao 
MOV ax 258 

na linha -I carrcga o valor 258 em AX, que resultu no carregumcnlo do valor 1 em AH e du valor 2 cm AL. Enldo, a 
linha 5 soma AL com AH c AH lica igual a 3. Nu linha 6, o conleiido da vuridvel tinies (10) ć copiudo para CX. Na 
linha 7, o endereęo da vari<ivel niiilJm , quc ć 2 porque elu estd no seguudo hyte do scgmenio DATA, e curregudu 
cm BX. Esse e o momentu que e moslrado na Figura C\6(b). Notę que AH i 3. AL ć 2 e AX 6 770, o que era de espe- 
rar, porque 3 x 25ó + 2 770. 

A inslruęiio seguinte (linha 8) copia o conteudo de mulilai paru AX. Assim, após o acionamento da tecla de 
relomo, AX serd 625. 

Agora, estamos prontos paru entrar cm um luęo que multiplica o conteudo de AX pcla palavra cndereęada por 
2BX (isto 6, nutliiui + 2), que tein o valor 2. O deslino impltcito da instriiędo MUL ć a comhina^do de registradores 
DX : AX. Nu primeira interaęflo do laęo, o resultado cabc cm urna palavra, portanto AX conlćtn o resullado (1250) e 
DX pentiunece 0. O conteudo de todos os registradores após 7 multiplicaęóes ć moslrado na Figura C.6. 

Visto que AX comeęou cm 625, o resultado após cssas sete multiplicaęóes por 2 e 80.0(X). Esse resultado tnlo 
cabe em AX. mas o produto ć conlido no regislrador de 32 bits formado pcla concatenaędn dc DX : AX. portanto DX 
ć 1 c AX e 14.464. Em termos nuraćricos, esse valor ć I X 65.536 + 14.464. que ć. de falo, 80.000. Notc que CX ć 
4 aqui. porquc u instruęao LOOP o decrementa a cada itcraędo. Como cle conteęou em 10, após sclc cxccuęóes da 
instruęao MUL (mas somente seis iteraęóes da instmęao LOOP), temos CX ajustado para 4. 
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Figura C.6 

(a) Parte de um programa. 

|b) A janela de registradores 
do rastreador após a 
execuęao da linha 7 
|c) 0 estado dos regislradotes 
apńs sete multiplicaęfles. 


starł' I 3 I 

MOV AX,258 ! 4 

ADDB AH.AL I 5 

MOV CX.(tlmos) t 8 

MOV BX.muWat I 7 


MOV AX,(BX) I 8 

lip: MUL 2(BX) I 9 

I LOOP Bp HO 

SECT DATA 111 

limes WORD 10 112 


tmuldal WORD 6S.2 113 

(a) 


CS 00 DS=SS*ES002 
AH:03 Al :02 AX 770 

BHOOBl .02 B X 2 

CH 00 CL Oa CX 10 l 

DH00DL.00 DX: 0 

SP: 7le0 SF ODSZcj 
BP: 0000 CC > p - 
SI 0000 IP 0009 PC 
Dl: 0000 siarI * 4 
(b) 


CS 00 DS=SS-FS002 
AM 38 Al .80 AX 14464 
■BU 00 BL 02 BX 2 i 
CH 00 CL :04 CX 4 I 

|DH0ODI.:01 dx 1 
SP 7le0 SF O DS ZC 
BP: onoo CC v > p - o 
Si onoo ip ooii pc 

( DI 0000 start >7 
(0 


Na multiplicaęiio scguintc aparece o problcma. Multiplicaęiio cnvolve AX, mas nSo OX. portanto, n MUL mul- 
tiplica AX (14464) por 2 para obter 28.928. Isso resulla no ajustc de AX para 28.928 e dc DX para 0. o que ć incor- 
reto em termos nuinćricos. 

C.8.3 Comando de chamada e registradores de ponteiros 

O próximo cxemplo, vecprod.s 6 um pequeno programa que calcula o produto interno de dois vetores. rw/ e 
vec2. A listagcnt do programa ć mostrada na Figura C.7. 

A primeira parte do programa prepara para cltamar vecmul salvando SP cm BP c entiio passando os endereęos 
de vec2 e m7 para a pilha. de modo que vecmul tera acesso a eles. F.ntao, o comprimento do vetor em bytcs ć car- 
rcgado cm CX na Iinlia 8. Deslocando esse resultado um bit para a direita, na linha 9, CX agora contćm o numeru 
de palavr<ts no vetor. que entiio ć passado para a pilha na linha 10. A chamada a vecmul ć Icita na linha 11. 

Mais urna vcz, vale a pena mcncionar que os argumcntos de suh-rotinas siło, por comcnęlo. passados para a 
pilha na ordcm inversa, para ficarem compatfveis com a convenęiio de chamada em C. Desie modo. trewii/ tam- 
Itetn pode ser chainado em C usando 

vecmul(count, vec1, vec2) 

Durante a instruęiio CALL. o endereęo de retomo e passado para a pilha. Se o programa Tor raslrcado, entao 
veremos que esse endereęo vcm a ser 0x0011. 

A primeira instruęiin na sub-rotinu ć urna PUSH do ponteiro de base, BP. na linha 22. BP ć salvo porque pre 
cisaremos desie rcgistnidor para endereęar os argumentos c as vari!ivcis locais da sub-rotina. Fm seguida. o pontei¬ 
ro de pilha ć copiado para o registrador BP na linha 23. de modo que o novo valor do ponteiro dc base esta apon- 
tando para o valor anligo. 

Agitra tudo estii pronto para carrcgar os argumentos nos registradores e para resenar cspaęo para urna varia- 
vel local. Nas (rćs linhas seguintes. cada um dos argumentos e buscado na pilha e colocado em um registrador. 
I .emhre-se de que a pilha funciona com palavras. portanto, endercęos de pilha devem ser pares O endereęo de retor- 
no esta junto ao ponteiro dc base antigo, assim, ele ć endcrcęado por 2(BP). O argumento nnint vem em seguida e 
ć cndeieyado por 4(BP). Iile 6 carregado em CX na linha 24. Nas linhas 25 e 26, SI e carregado com ir<7 e Dl f car- 
regado com vev2. Essa sub-rotina precisa de unia variśvel local com valor inicial 0 para salvnr o resultado imedia- 
to. Com essa linalidade. o valor 0 ć passado pani a pilha na linha 27. 

O estado do processador pouco antes de entrar pela primeira vez no laęo na linha 28 e mostrado na Figura C.8. 
A janela estreita no incio da linha do topo (i) direita dos registradores) mostra a pilha. Na parte de haixo da pilha 
estd o cnderevo de vec2 (0x0022). com iw/ (0x0018) acima dele e o terceiro argumento. o mimem de ilens cm cada 
velor (0x(K)05) acima desse ultimo. Em seguida vem o endereęo de retomo (0x0011). O numeru I it esquerda desse 
endereęo indica que ele ć um endereęo de retomo a um n(vcl do programa principal. Na janela abaixo dos registra¬ 
dores. o mesmo numero I ć mostrado, dessa \C7 dando seu endereęo simbólico. Acima do endereęo de retomo na 
pilha estii o antigo valor ile BP (0x7fc0) c entiio o /ero passado na linha 27. A seta quc apontn para esse valor indi¬ 
ca para omie SP aponta. A janela ii direita da pilha mostra um fragmento do texlo do programa. com a seta indican- 
do a prósima instruęao a ser exccutada. 

Agora vamos cxaminaro laęo quc conteęa na linha 28. A instruęao LODS carrcga urna palnvra dc meniória indi- 
relaniente para AX. por meio do registrador SI a partir do segmento dc dados. Como o dag de direęilo estd ajustado. 
LODS estd em modo de auto incrcmento. portanto, após a instruęao SI apontard para a próxiinu entrada de w»7. 

Para ver esses efeitos ent modo grdfico, inicie o rastreador com o comando 

t88 yecprod 

Quando a janela do rastreador apareccr. digite o comando 

/vecmul+7b 

seguido de um retomo para colocar um ponto de parada na linha quc contćm LODS. De agora em dianie, nao men- 
cionaremos que todos os comandos devcm ser seguidos pela tecla de retomo. Entao dO o comando 


para que o rastreador execute comandos atć o ponto de parada ser encontrado. Ele vai parar na iinba qtic contćm a LODS. 

Na linha 29. o valor de AX ć multiplicado com o operando de fonie. A palavra de menuiria para a instruęao 
MUL ć buscada no segmento de dados por meio do Dl cm modo i nil i re to de registrador. O destino implicito de MUL 
ć a combinnętlo de registradores dc DX : AX que nflo ć mcncionada na instntęao, mas que estii impllcita nela. 



.exit -1 

PRINTF = 127 
.SECT ,TEXT 
mpstart: 

MOV BP.SP 
PUSH vec2 
PUSH vec1 
MOV CX,vec2-vec1 
SHR CX,1 
PUSH CX 
CAI L v«cmul 
MOV (inprod),AX 
PUSH AX 
PUSH plmt 
PUSH PRINTF 

CVQ 

ADO SP.12 
PUSH O 
PUSH EXIT 
SYS 


I 1 dalma o valor de EXIT 
I 2 dellna o valor de . PRINTF 
I 3 Inicle o segmento TEXT 
! 4 dellna rótulo inpstart 
I 5 salve SP em BP 
I 6 passe endereęo de vec2 
I 7 passe endereęo de vec1 
! 8 CX = numero de bytes em vetor 
I 9 CX = numero de palavras em velor 

110 passe conlagem de palavra 

111 chanie vecmul 

112 mova AX 

113 passe resultado a ser Impresso 

I 14 pusse endereęo de cadeia de lormato 
I 15 passe codigo de lunęAo para PRINTF 
I 16 chame a Umęflo PRINTF 

117 llmpe a pllha 

118 passe códlgo de status 

l 19 passe códlgo de funęfio para EXIT 
120 chama a lunęflo EXIT 


Figura 0.7 

0 programa trec 
prod s 


vecmul. 

PUSH BP 
MOV BP SP 
MOV CX,4(BP) 
MOV SI.6(BP) 
MOV DI,8(BP) 
PUSH 0 


I 21 Infclo de vecmul(courit. vec1. vec2) 

122 salve BP na pilha 

I 23 copie SP para BP paru acessar argumentos 
I 24 ponha conlagem em CX para contiolar laęo 
I 25 SI = vec1 

126 Dl = vec2 

127 passe 0 para pilha 


1: LODS 
MUL (01) 

ABD -2(BP),AX 
ADD DI.2 
lOOP Ib 
POP AX 
POP BP 
RET 


! 28 rnova (SI) para AX 
I 29 mullipllque AX por (01) 

! 30 Sonie AX com valor acumulado na membrta 
I 31 Incremente Ol para aponlar o pionuno elemenlo 
I 32 se CX > 0, volte ao rótulo 1 
! 33 Retire topo da pilha para AX 
! 34 Restaure BP 
I 35 Retorne da sub-rotina 


SECT DATA 

płrnt: ASCIZ “Produto interno e : %d\n* 
AUGN 2 

vec1 WORD 3.4./. 11.3 
vec2 WORD 2.6.31.0 
SECT BSS 
inprod. SPACE 2 


I 36 inicle segmenlo DATA 
I 37 dellna cadeia 
• 38 lorce endereęo par 
I 39 vetor 1 
I 40 vetor 2 

141 Inicle segmento BSS 
I 42 alogue espaęo para Inprod 


Figura CU 

Execuęao de vecpiod.s 
quando eie alcanęa a linha 
28 pela pnmetra vez. 


MOV BP.SP 1 B 

PU8Hvoc2 1 6 

PUSHvoct 1 7 

MOV CX.vec2 vec1 1 S 

SI IR CX.1 ł 6 

PUSH CX 1 to 

CAU vecmul III 

wcmul. 1 2t 

PUSH BP 1 22 

MOV BP.SP 123 

MOV CX,4(BP) 124 

MOV SI B(BP) 125 

CS OO DS>SS-LS004 
AH 00 At .00 AX 0 

BH 00 BL:00 BX 0 

CH.OO CL.0& CX: S 

iDH OODLiOO OX: 0 

'SP 7104 SF O DS ZC 

BP 7106 CC » p l 

Si 0016 IP. 0031 PC 
Ol: 0022 wecmulł7 

=>0000 

7fc0 

1 0011 
0005 
0018 
: 0022 

PUSH BP 1 22 

MCM BP.SP 1 23 

MOV CX 4(BP) 1 24 

MOV S1.6(BP) 1 2B 

MW DI.S(BP) i 26 
PUSH 27 

»>1: LODS i 26 

MUL (01 29 

ADO -2(BP).AX 1 30 

1 <* mpslsri i 7 J 

' 

PUSHO 127 

t . LODS 128 

MUL (Dl) 129 

ADD -2(BP) AX ) 30 

ADD DU 131 

LOOP Ih 132 

voc1 ♦ 0 =0016: 30407000 3 

voc2ł0 =0022: 20603010 2 

plmt ł0 =0000:54 68 6S 20 69 Be 20 70 Th* II) piod 26708 

|plrnli 16 . 0012 28 64 21 • 0 0 3 0 *4.dl 25637 

* 


Na linha 30, o resultado e udicionudo a varidvel loeal no endereęo de pilha -2(BP). Como MUL nikt auto-incremett- 
ta seu operando, isso deve ser feito cxplicitamente na linha 31. Logo depois, Dl uponta para a próxinta entrada dc vec2. 

A instruęao LOOP encerra essa etapa. O registrador CX e decrenienlado e, se ainda for positivo, o programu 
salta para inis ale o rótulo local l na linha 28. A utilizaęao do rótulo local Ib significa o rótulo 1 tnais próximo 
olhando para (ras a partir da locali/aęao corrente. Após o laęo, a suh-rotina retira da pilha o valor de retomo para 
AX (linha 33), resiaura BP (linha 34) e volta para o programu chamador (linha 35). 

Hnlao o programu principal e relomado após a chamada com a instruęao MOV na linha 12. Essa instruęao ć o 
imcio de umu seqUencia dc cinco instruęóes cujo ohjetivo ć imprimir o resultado. A chamada de sistema prlntl ć 
modelada segutido a funęao printf na bibliotcca de programaęao pudrao de C. Tres argumentos sao passados para a 
pilha nas linhus 13 15. Esses argumentos sao o valor do inteiro a ser impresso, o endereęo da cadeia de formulo 
(y)/»i/), e o codigo de funęao para printf (127). Notę que u cadeia de lormato pfmi contćm urn 'X ri para indicar que 
urna variavcl inteiru pode ser enconlrada como urgumento para a chamada printf para concluir a safda. 

A linha 17 limpu a pilha. Urna vez que o programu comcęou nu linhu 5 sulsando o ponteiro de pilha no pon- 
leiro tle hasc, lambcm poderfumos usar a inslruęflo 


Apendice C Programaężo em Llinguagem de Montagem 




Organizaędo Estruturada de Computadores 434 


MOV SP,BP 

para limpar a pilha. A vantagem dessa soluęao ć que o programador nao preeisa manier a pilha halanceada no pro 
ccsso. Para o programa principal isso niio e grandę coisa. mas cm sub-rotinas essa abordagem e um modo fdcil de 
jogar fora o lixo, tal como variaveis locais obsoletas. 

A sub-rotina vecmul pode ser inclufda em outros programas. Se o arquivo-fonte vecprod.x for colocado na 
linha de comando atras dc outro arquivo-fonte do assembler. a sub-rotina estara disponfvel para multiplicaęao de 
dois vetores de comprimento fixo. E aconscMvel removcr antes as dcrmięóes de constanles _EXIT e PRINTF. de 
modo a evitar que elas sejam definidas duas vezes. Se o arquivo-cabcęalho syscalnr.lt eslivcr inelufdo em algum 
lugar, entao niio hii nccessidade de dcfinir as constanles dc chamada de sistema em nenhum outio lugar. 

C.8.4 Depuraęao de um programa de impressao de vetores 

Nos exemplos anteriores, os programas exaniinados eram simples. porem corretos. Agora vamos mostrarcomo 
o raslreador pode ajudar a depurar programas incorretos. O próximo programa deve imprimir o vetor ile inteiros, 
que ć fomecido após o rótulo v«7. Contudo, a versao inicial contćm tri?s erros. O assembler e o rastreador serao 
usados para corrigir esses erros. porem, antes, vamos discutir o código 

Como cada programa preeisa de chamadas de sistema e. por isso, dcve dcfinir constantcs pelas quais identifi 
car os numeros das chamadas, colocamos as definięóes de constanles para esses numeros em um arquivo-cabeęa- 
Iho separado ../syscalnr.h. que ć inelufdo na linha I do código. Esse arquivo tambćm define as constantes para os 
dcscritores de arquivo 

STblN = 0 

STDOUT - 1 

STDERR - 2 

que sao abertos no infcio do processo. e rótulos de cabeęalho para o texto e os segmentos de dados. E sensato incluf- 
lo no tftulo de todos os arqnivos-fonte do assembler. porque essas definięóes sao muito usadas Se lima fonie for 
distribufda em mais de um arquivo, o assembler inclui somente a prinieira cópia desse arquivo-cnbeęalho para evi- 
tar dcfinir as constantes mais ile urna vez. 

O programa arrayprt e mostrado na Figura C.9. Os comenUirios foram omitidos aqui. porque, nesta altura, as 
instruęóes ja devem ser hem conhecidas. Portanto, pode-se usar um formato de duas colunas. A linha 4 coloca o 
endereęo da pilha vazia no regislrador de ponteiro de base para permitir quc a limpeza da pilha possa ser feita na 
linha 10 copiando o ponteiro de base para o ponteiro de pilha. como deserevemos no exemplo anterior. Tamhćm 
vimos o cdlculo e a passagem dos argumenlos da pilha antes da chamada nas linhas 5 a 9 no cxemplo anterior. As 
linhas 22 a 25 carregam os registradores na sub-rotina. 

As linhas 27 a 30 mostram como a cadeia pode ser impressa e 31 a 34 most ram a chamada de sistema printf para 
um valor inteiro. Obsenc que o endereęo da cadeia ć passado para a pilha na linha 27, cnquanto na linha 33 o valor 
do inteiro e passado para a pilha. Em ambos os casos. o endereęo da cadeia dc formato ć o primeiro argumento de 
PRINTF. As linhas 37 a 39 mostram como um tinico caraclere pode ser impresso usando a chamada de sistema putchar. 

Agora, vamos tenlar montar e cxecutar o programa. Quando o comando 

as88 arrayprt.s 

6 digitado, obtemos um erro de operando na linha 28 do arquivo arrayprt.$. Esse arquivo ć gerado pclo assembler 
combiuando os arquivos inclufdos com o arquivo-fonte para obter um arquivo composto que ć a entrada do assem¬ 
bler propriainente dita. Para ver onde realmente estd a linha 28. temos de examinar a linha 28 dc arrayprt.s. Nao 
podemos examinar arrayprt.s para obter o mimem da linha porque os dois arquivos nao combinam por causa da 
inclusSo do cabeęalho linha por linha em arrayprt.$. A linha 28 cm arrayprt.s corresponde i linha 7 em arrayprt.s 
porque o arquivo-cabeęalho inelufdo, syscalnr.h, contćm 21 linhas. 



Klnclude “. /syscalnr.h" 

1 1 

.SECT TEXT 

120 




yecpriril' 

121 


.SECT TEXT 

1 2 

PUSH BP 

12? 


vscpsM: 

1 3 

MOV BP.SP 

123 


MOV BP,SP 

1 4 

MOV CX,4(BP) 

124 


PUSH vec1 

1 5 

MOV BX.6(BP) 

! 25 


MOV CX.Irmalstr-vec1 

1 6 

MOV Sl,0 

! 26 


SHR CX 

1 7 

PUSH Irmaikop 

127 


PUSH CX 

1 8 

PUSH frmalstr 

128 

Figura 0.9 

CALL yecprint 

1 9 

PUSH PRINTF 

'29 


MOV SP.BP 

! 10 

SYS 

130 

0 programa arrayprt antes 

PUSH 0 

111 

MOV 4(BP),lrmallnl 

131 

da depuraęao. 

PUSH EXIT 

1 12 

1:MOV DI,(BX)(SI) 

132 


SYS 

113 

MOV -2(BP),DI 

133 




SYS 

'34 


.SECT DATA 

1 14 

INC SI 

135 


vec1: WORD 3,4,7,11,3 

115 

LOOP Ib 

i 36 


Irrnalslr: .ASCIZ "%s“ 

116 

PUSH In’ 

137 




PUSH PUTCHAR 

138 


Irmaikop: 

117 

SYS 

139 


.ASCIZ "The array contains ’ 

i 18 

MOV SP.BP 

140 


frmatint: .ASCIZ ” %d" 

1 19 

RET 

! 41 

— 

f 


__ 




Um modo ftłcil de achar a linlia 28 de arrayprt.S em sistemas l)NIX e digitar o couiando 
head 28 artayprt.S 

que apresenta as pnmeiras 28 linhas do arquivn coinhinado. A linha qtie eslii no finał da listagem ć a quc es 1.1 erru 
tła. Dcsse modo (on usando um ediior e indo atć u linha 28) vemos que o erro esta na linha 7, que contćm a insiru- 
ęao SHR. A compuraęao desse código com a tabela de instruęoes na Figura C.3 mostra o problemu: u contagem do 
deslocamentn foi omitida. A linha 7 eorrigida devcria ler 
SHR CX,1 

£ muito iinpnilante ohscnrar quc o erro deve ser eorrigido no arquivo-fonie original, arrayprt.S, e nuo na fonte 
combinado arrayprt.S, porque esse ultimo 6 automaticamentc regenerado toda vez que o ussembler ć ehamado. 

A próxima tentuliva de montar o urquivo de akligo-fontc deve ser bem-sucedida. Kuliło. o raslreador pode ser 
iniciudo pelo comando: 

188 arrayprt 

Dumnie o procussn dc mstrcamento, podemos ver que u saldu niło e consistente com o velor no segmento de 

dados. I) vetor contem: 3,4, 7, 11,3, mas os valores apresentados comeęam com: 3, 1.024.H claro que alguina 

coisa esta erradu. 

Fara achar o erro. o raslreador pode ser executado mais urna vez, passo a passo, cxaminando o estado da 
inaquina poueo untcs da impressao do valor incorreto. O valor a ser impresso esta armazenado na memória nas 
linhas 32 e 33. (Ima vez qne o valor errado estii sendo impresso, esse 6 um bom lugur para ver o que esta errado. 
Na segundu vez que pereorremos o laęo, venios que SI 6 um n u mero impar, quando esta dam quc deviu ser um 
niimcro par. porque cle e endereęado por meio de palavras, e niło bytes. O problcma esta na linha 35. Kia incremen- 
la SI de I; deveria incremenld-lo de 2. Para consertar o bug, essa linha deve ser alterada para 
ADD SI,2 

Após 1'uzei essa correęao, u lista de miineros impressa cstara correta. 

loda siu, liii mais um erro a nossa espera. Quando vecprint conclui e ret orna, o raslreador se queixa do pontci- 
ro de pillia. Por enquanto, o óbvio ć vcrificar se o valor passudo para a pilhu quamlo vecprint e ehamado e o salor 
que esta no topo da pillia quaudo o RET na linha 41 6 executado. Niło e. A soluęao ć substitiiir a linha 40 por duas 
linhas: 

ADD SP.10 
POP BP 

A primciru insiruęSo remove as cinco paluvras passadas para a pilha dumnie yecprint, o que expńc o valor de 
BP salvo naJinha 22 Ketirando esse valor para BP, restaurumos BP ao valor que linha untes da chamaila e expomos 
o cndeicęo de retonio eorreto. Agora, o programa conclui correlamente. Depuruęao de cńdigo de montagem e, por 
certo, mais arte do que cieneia, mas ć muito mais facil fu/ć-la com o raslreador do que com as indos vazius. 

C.8.5 Manipulaęao de cadeia e instruęoes de cadeia 

A principul tinalidade desta seęflo 6 mostrar como manipular instruęoes de cadeia repet(veis. Na Tabela C.10, 
ha dois programus simples de manipulaęao de cadeia, slrngcpy.s e reverspr.s, ambos presentes no diretório examples. 
O da Tabela C. 10(a) e urna sub-rotina para copiar urna cadeia. Ele chama urna sub-mtina, stringpr, que tantbem pode 
ser cncontruda em um arqui\ o separado slringpr.s. Sua listagem nao aparece nesse apćndice. Para montar programus 
quc contćin suh-rolinas em arquivos-fonte sepurudos, basta relacionur todos os arquivos-fonte no comando as8N, 
comeęundo com o arquivo-lbnte paru o programu principul, quc detennina os nomes do nrquivo cxecutavel e do 
arquivo uuxiliar. Por exemplo. para o programa da Tabela C.10(a) use 
as88 slrngcpy.s strlngpr.s 

O programa da Talielu C.IO(b) produz salda de cadeias em ordem imersu. Vamos examina-las urna por vcz. 
Paru demonslmr quc os niimcros de linha sSo, realnienie, upenas comentiirins, na Ihbelu C.IO(u) numeramos 
as linhas comeęando com o primeiro rótulo e oniitindo o que vent aules delas. O programa principul, nas linhas 2 
u 8, primeiro cliuinu stmgcpy com dois argumentos, u cadeia de fonte, mesg2, e u cadeia de destino, mesgl, na 
ordem. para copiar u fonte para o destino. 

Em seguidu, vamos examinar stmgcpy, comeęando na linha 9. Ela espera que os endereęos do buffer de des¬ 
tino e da cadeia de fonte tenhum sido pussados para a pilha um pouco untes de a sub-rotina ser chamada. Nas linhas 
10 a 13, os registradores usados siło salvos passando-os para a pilha. de modo quc possam ser restaurados adianlc 
nas linhas 27 a 30. Na linha 14. copiamos SP para BP do modo usual. Agora, BP pode ser usado para carregar os 
argumentos. Mais unia vez, na linha 26, limpainos u pilha copiando BP para SP. 

O coraęao da sub-rotina e a instruęao REP MOVSB, na linha 24. A instruęao MOVSB move o byte apontado 
pelo SI para o endereęo de memória apontado |>elo Dl. Entiio, ambos, SI e Dl, sao inerementados de I. A REP cria 
um laęo no quul cs.su instruęao e repetida, dccrementundo CX de I para cada byte movitlo. O laęo ć cncerrado 
quando CX cliegu u 0. 
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#lnclude" ./syscalnr.h” 


SECT TEXT 
stcslatt: 

PUSH mesgl 
PIJSH mesg2 
CALL slmgcpy 
ADD SP.4 
PUSH O 
PUSH t 
SYS 


Fluura C IO 

(a) Copie uma cadeia 
Istrngępy.s) 

|b| imprima uma 
cadeia na ordem inver- 
sa |reyerspr..s|._ 


slrnqcpy: 

PUSH CX 
PUSH SI 
PUSH Dl 
PUSH BP 
MOV BP.SP 
MOV AX,0 
MOV DI.IO(BP) 

MOV CX.-1 
REPNZ SCASB 
NEQ CX 
DEC CX 
MOV SI.IO(BP) 

MOV DI,12(BP) 

PUSH Dl 
REP MOVSB 
CALL slringpr 
MOV SP.BP 
POP BP 
POP Dl 
POP SI 
POP CX 
RET 

SECT DATA 

mesgl: ASCIZ 'Have a look\n‘ 
mesg2' ASCIZ 'gislln" 

SECT BSS 
(a) 


I 1 
t 2 
I 3 
l 4 
I 5 
I 6 
I 7 
I 8 
I 9 
110 
111 
I 12 
I 13 
I 14 
I 15 
I 16 
I 17 
I 18 
I 19 
120 
121 
122 

123 

124 

125 

126 

127 

128 

129 

130 

131 


134 


starł: MOV Dl,sir 
PUSH AX 
MOV BP.SP 
PUSH PUTCHAR 
MOVB AL,W 
MOV CX,-1 
REPNZ SCASB 
NEG CX 
STD 
DEC CX 
SUB Dl,2 
MOV SI,Dl 
1: LODSB 
MOV (BP),AX 
SYS 

LOOP ib 
MOVB (BP).tn- 
SYS 
PUSH 0 
PUSH EXIT 
SYS 

.SECT DATA 

str: .ASCIZ 'reverse\n" 


I 2 
' 3 
i 4 
I 5 
' 6 
I 7 
' 8 
' 9 
I 10 
111 
I 12 
113 
I 14 
I 15 
I 16 
I 17 
I 18 
I 19 
•20 
121 
122 

123 

124 


Entretanto. antes de podermos execular o lago REP MOVSB. lemos de ajustar os registradores, o que e feilo nas 
linhas 15 a 22. O fndice de fonie. SI. ć copiado do argumento na pilha na linha 21: o fndice de dcstino. Dl. ć ajus- 
tado na linha 22. Obler o valor de CX ć mais complicado. Notę que o finał da cadeia ć indicado por urn byte zero. 
A insiruęao MOVSB nSo afcta o flag de zero. mas a instruęao SCASB (examine cadeia de byłeś) afcta. Ela compara 
o valor apontado por Dl com o valorcm AL. e incremenla Dl durante o processo. Alćm do mais. ela 6 repetfvel, como 
MOVSB. Portanto, na linha 15 AX e. por conseqtiencia, AL e limpo. na linha 16 o pontciro para Dl 6 huscado na pilha. 
e CX ć inicializado para -1 na linha 17. Na linha 18. temos a REPNZ SCASB. que faz a comparaęSo no contexto do 
lago e njusta o flag tle zero em iguuldnde. Hm cada etapa do lago, CX 6 decremcnlado c o lago pdra quando o flag 
de zero esliver ajustado. porque a REPNZ verifica ambos. o flag dc z.ero e CX. C) numero de etapas para o lago 
MOVSB agora ć calculado como a difcrenęa enlre o va!or correnle de CX e o — I anlerior nas linhas IM e 20. 

O falo de ser neccssdrio iluas instruęóes repctfveis atrapalha. mas essc ć o pręgo de optar por urn projclo no 
qual mover instruęóes nunca afcla cótligos dc condięao. Duranle os laęos. os registradores de fndices tfim de ser 
incrcmcntados e, com essa finnlidadc. e necessśrio que o flag dc diregao esteja liberado. 

As linhas 23 e 25 imprimem a cadeia copiada por meio de uma sub-rotina, slringpr. quc eslii no dirclńrio 
examples. Ela ć dircta e niio serii discutida aqui. 

No programa dc inipressao em ordem inversa, niostrado na Tabela C.IOfb), a primeira linha inclui os niimeros 
usuais dc chamadas de sistema. Na linha 3, um valor fictfcio ć passado para a pilha c. na linha 4. o pontciro de base. 
BP. ć obrigado a apontar para o topo de pilha correnle. O programa imprimirA earacteres ASCII um por um, assim. 
o valor numćrico _PUTCHAR 6 passado para a pilha. Notę que BP aponla para o caractere a ser impresso quando <? 
feita uma chamada SYS. 

As linhas 2. 6 e 7 preparam os regotradores Dl. AL e CX para a inslmgao repetfvel SCASB. O registrador de 
contagcm e o fndice de deslino siło carregados de modo semelhante ao da rotina de cópia de cadeia. mas o valor de 
AL 6 o caractere dc nova linha, cm vcz do valor 0. Desse maneira, a inslnigao SCASB compnrard os valores dos 
earacteres da cadeia sir com \n em vez. de com 0, e ajustara t) fiag de zero semprc que ele for cncontrado. 

A REP SCASB inerementa o registrador Dl. portanto. depois dc um acerto. o fndice de destino aponta para o carac¬ 
tere zero que vcm aptis a nova linha. Na 12, Dl 6 decrementado de dois para apontar para a ultima letra da palavra. 

Se a cadeia for percorrida na ordem ineersa c impressa caractere por caractere. cumprimos nosso objetivo. ptir 
tanio, na linha 10 o flag de diregao ć ajustado para inverter o ajuste dos registradores de fndices nas instruęóes de 
cadeia. Agora, a LODSB na linha 14 copia o caractere em AL c. na linha 15, csse caractere ć colocado logo após 
_PUTCHAR na pilha, portanto a instrugao SYS o imprime. 

As instruęóes nas linhas 18 c IM imprimem uma nova linha adicional c o programa fecha com uma chamada 
_EXIT da maneira usual. 

A vers2o correnle do programa contćm um bug. Ele pode ser achado se o programa for rastreado passo a passo. 


a 




J 


O comaiido /sir coloeard a cadeia sir no cainpo de dados do rastreador. U ma vez que o valor numerico do ende 
reęo de dados lumbem e dado, podemos descobrir como os regisiradores de fndices funcionam por meio dos dados 
referentes a posięao da cadeia. 

Todavia, o bug e encontrado só após acionar a tecla de retorno muilas vezes. Usando os comandos do rastrea- 
dor podemos chegai ao problema com maior rapidez. Inicie o rasireador e de o comando IJ que nos levard atd o 
meio do laęo. Se agora dermos o comando b , eslabeleceinos um ponto de parada nessa linha 15. Se dermos duas 
novas linhas, entao vemos que a letra finał e esta impressa no campo de safda. O comando r maniera o rastreador 
executando ale ser encontrado um ponto de parada ou o finał do processo. Desse modo, podemos percorrer as letras 
dando o comando i icpetidas vezes, ale chegannos perło do problema. Desse ponto cm dianie, podemos executar o 
rastreador um passo por vez ale vermos o que acontece nas instruęócs crflicas. 

Tumhem podemos colocar o ponto de parada em urna linha espectfica, mas, entao, dcvemos ter em menie (|ue 
o arquivo../vy.siw/wr e inclutdo, o que provoca um dcslocamcnto de 20 nos numcros das linhas. Por consequeneia, 
o ponto de parada na linha 16 pode ser esiabelecido pelo comando 36b. Essa soluęao nao ć elcganle, portanto 6 
muito inelhor usar o róiulo globu! start na linha 2 anles da inslruęao e dar o comando /starl+14b, que coloca o ponto 
de parada no mesmo lugar sem ter dc monitorar o tamanho do arquivo inclutdo. 

0 8 6 Tabelas de despacho 

Hm vanas liuguagens de programaęao existem deciaraęóes ca.se ou switch para selecionar um salto entre diver- 
sas aliemaiivas de acordo com algum valor numerico de urna varidvel. As vezes, esses desvios multivias lambćm 
sao necessanus em programas de linguagem de monlagem. lmagine, por excmplo, um conjunto de sub-rotinas de 
chamndas de sistema combinadas em urna unica rotina de exceęao SYS. O programa jumplbl.s , apresentado na 
Figura (.'.11, mostra como cssa comutaęao multivias pode ser programada em assembler 8088. 

O programu iniciu imprimindo a cadeia cujo rńtulo e strt, coiwidando o usudrio a digitur um dfgito octal (li¬ 
nhas 4 ale 7). Entao. um caractere e lido da entruda padrao (linhas 8 e 9). Se o valor para AX for menor que 5, o pro- 
grama o interprela como um marcador de finał de arquivo e salta para o róiulo 8 nu linha 22 para sair com um códi 
go de slaius de 0. 

Se o finał de arquivo nao łoi encontrado, entao o caractere de entrada, em AL, ć inspeeionado. Qualquer carac- 
tcre menor que o dfgito Cl e considerado espaęo em branco e 6 ignorado pelo salto na linha 13, que recupcra outro 
caractere. Qualquer caractere acirnu do dfgito 9 e considerado urna entrada incorreta. Na linha 16, ele e inupeudo 
para o caractere ASt II dois-pontos, que e o sucessor do dfgito 9 na seqiiencia de caractcres ASCII. 

Assim,' nu linha 17, temos um valor em AX entre o dfgito 0 e dois-pontos. Esse valor e copiudo para BX. Na 
linha 18, u instruędo AND mascara tudo, exceto os quatro bils de ordem baixa, o que deixa um mimem entre 0 e 10 
(pelo falo de que o I) em ASCII e 0x30). Urna vez que vamos indexar para urna tabela de palavrus, em vez de bytes, 
o valor em BX e muUiplicado por dois usando o dcslocumcnlo para a esquerda na linha 19. 

Na linha 20, temos urna instruędo de chamada. O endereęo efelivo e encontrado somando-se o valor de BX ao 
valor numerico do róiulo tbl, e o conleudo desse endereęo composto <5 carregado no contador de programa, PC. 

Hsse programa escolhe urna das dez sub-rotinas de acordo com um caractere que e buscado na entrada padriio. 
Cudu urna dessas sub-rotinas passa o endereęo de alguma ntensagem para a pilha e entao salta para unia chamada 
de sistema de sub-rotinu _PRINTF que 6 compartilhada por lodas elas. 

Fara entender o que csta acontecendo, precisamos eslar cientes de que as instruęóes JMP e CALL carregam 
algum endereęo do segmentu de texlo em PC. Tal endereęo ć apenas um numero binario, e durante o processo 
de monlagem todos os endereęos sao substitufdos por seus valores binarios. Esses valores hindrios podem ser 
usados para inicializar um velor no segmentu de dados, e isso e feito na linha 50. Assim, o velor que comeęa 
em ibl contem os endereęos de infcio de routO, ront l, ram2 e assim por dianie, dois bytes por endereęo. A neces- 
sidade de endereęos de 2 bytes expliea porque precisamos do deslocamento de 1 bil na linha 19. Urna tabela desse 
tipo costuma ser denominadu tabela de despacho. 

O modo como essas rotinas funcionam pode ser visto na rotina erout nas linhas 43 ate 48. Essa rotina trata o 
caso de um dfgito fora de alcance. Em primeiro lugar, o endereęo da mensagcm (em AX) e passado para a pilha na 
linha 43. Entao. o numero da chamada de sistema _PRINTF ć passado para a pilha. Depnis disso, a chamada dc sis¬ 
tema e feita, a pilha ć limpa e u rotina retoma. Cada urna das outras nove rotinas, roulU ate rout8, carrega os ende¬ 
reęos de suas niensagens privadas em AX, e entao salta para a segunda linha de erout para produzir a safda da nien- 
sugem e terminur a suh-rotina. 

Para vocć se acostumar com tabelas de despacho, o programa deve ser rastrcado com vdrios caractcres tle 
enlraila diferenles. Como exercfcio, o programa pode ser alterado de um modo ud que todos os caractcres gerem 
urna aęao scnsata. Por exeniplo, todos os caracteres que nfio sejam dfgitos octais devein dar uma mensagcm de erro. 

C.8.7 Acesso a arquivo com buffer e aleatório 

O programa liiFilHuf.s, mostrado na Figura C.I2, demonstra E/S aleatória em arquivos. Presume-se que um 
arquivo consista em certo numero de linhas, e linhas diferenles podem ter comprimentos diferentes. Em primeiro 
lugar. o programa le o arquivo e monta uma tabela na qual a entrada we a posięao do arquivo na qual a linha n come¬ 
ęa. Logo após, a linha pode ser reąuisitada, sua posięao consultada na tabela e a linha pode ser lida por meio de cha 
madus de sistema Iseek e read. () nome do arquivo e dado como a primeira linha na entrada padrao. Esse programa 
contem diversas poręóes de código razoavelmenle inde|iendentcs que podem ser moilificadas para outras finalidades. 
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tHncłude" /syscalnr.łi" 

1 1 

roulO: MOV AX.mes0 

'25 


SECT TEXT 

1 2 

JMP 91 

126 


jumpslft: 

1 3 

routl: MpV AX,mesl 

127 


PUSH strt 

1 4 

JMP 91 

128 


MOV BP.SP 

1 5 

fOUt2: MOV AX.mes? 

129 


PUSH PRINTF 

1 6 

JMP 91 

'30 


SYS 

1 7 

rou!3: MOV AX.mes3 

131 


PUSH GETCHAR 

! 8 

JMP 91 

132 


1: SYS 

1 9 

rou!4: MOV AX,mes4 

1 33 


CMP AX.5 

1 10 

JMP 91 

'34 


JL 81 

111 

rout5: MOV AX.mes5 

'35 


CM PB AL.'0” 

1 12 

JMP 91 

'36 


JL Ib 

113 

rout6: MOV AX,mes6 

137 


CMPB AL/9' 

1 14 

JMP 91 

138 


JLE 21 

116 

tou17: MOV AX.mes7 

139 


MOVB AL.9+1 

1 16 

JMP 91 

140 

risura C.11 

2: MOV BX,AX 

117 

roulB: MOV AX.mes8 

'41 

AND BX.0XI 

1 18 

JMP 91 

142 

Um programa que 

SAL BX.1 

1 19 

eroul: MOV AX,emes 

'43 

demonstia um desvto 

CALL lbl(BX) 

120 

9- PUSH AX 

'44 

multivias usando uma 

JMP Ib 

121 

PUSH PRINTF 

145 

tabela de despactio. 

8: PUSH 0 

PUSH EXIT 

122 

123 

SYS 

ADD SP.4 

146 

147 


SYS 

124 

RET 

'48 


SECT DATA !49 

tbł- WORD rout0.rout1,rout2,rout3.rout4,rout5,fout6,rout7,rout8,rout8,erout ! 50 

mesO: ASCIZ 'Isso ś um zero \n" ! 51 

me8l; .ASCIZ ”Que lal um umAn" I 52 

mos2: ASCIZ "Voc6 pedlu um dolsAn” I 53 

me83: ASCIZ 'O dlgito era um tresAn - 154 

mes4: .ASCIZ ‘VocS digitou upi quatro.\n’ I 55 

mes5: ASCIZ ’Voe6 preferlu um dncoAn" ! 56 

mes6: ASCIZ "Um sels fol encontradoAn" I 57 

mes7 ASCIZ * Esse ś o numero seteAn" t 58 

mes8 .ASCIZ "Esse dlgito nfio e acelto como um octalArT 1 59 

emes: .ASCIZ "isso nao 6 um dlgito. Tente novamente \n‘ 1 60 


strtr .ASCIZ "Diglte um dlgito octal com um retotno. Parę em tlnal de arquivo.\n“ 161 


As cinco primeiras linhas simplcsinentc definem os ntimeros de dtamada de sistcnta e o lamanho do buffer e 
ąjuslam o ponteiro de base no topo da pillta. como sempre. As linhas 6 atć 13 ISem o nome do arquivo a partir da 
entrada padrao, e o annazenam como lima cadcia no rritulo linein. Se o nonie do arqnivo nflo for adequadantente 
fccltado com unia nova linha, entao e gcrada unia mensagem de erTo e o processo sai com um status nflo-zero. Isso 
ć fcito nas linhas 38 alf 45. Nolc que o endereęo do nome de arquivo e passado na linha 39. e o endereęo dc unia 
mensagem de erro ć passado na linha 40. Se cxaminarmos a mensagem dc erro em si (na linha 113). entio temos 
urna requisięflo de cadeia %s no formato _PRINTF. O conteddo da cndcia linein ć inserido aqni. 

Se o nome dc arquivo puder ser copiado sem probleinas, o arquivo 6 nberlo nas linhas 14 a 20. Se a chamada 
open fulhar, entao o valor de retomo ć ncgativo e i feito um salto para a rritulo 9 na linha 28 para imprimir unia men- 
sagem de erro. Se a chamada dc sistema for bem-succdidn, enlilti o valor de retomo ( um descritor tle arquivo. quc 6 
artnazenado na variavel fil des. Esse descritor dc arquivo ć ncccssńrio nas chamadas reart c Iseek subseqticntcs. 

Em seguida, lemos o arquivo cm blocos de 512 byłeś, cada um armazenado no buffer buf. O bulTcr alocado ć 
dois bytes maiorque os 512 bytes necessdrios. apenas para detnonstrar como urna constante simbólica e um intei 
ro potlcm ser misłurados cm urna expressao (na linha 123). Dessc mesmo modo. na linha 21 SI carregado com o 
endereęo do scgttndo elemento do arranjo linii, o que dcixa unia palavra de mdquina contendo 0 na parte de baixo 
desse vetor. O registradtir BX conterd o endereęo de arquivo do primeiro caraclcre nflo lido do arquivo e. por con- 
seguinte, ele 6 inicializado para 0 antes da primeira vez que o buffer 6 preenchido na linha 22 

O preenchimento do buffer 6 manuseado pela rotina fillbuf nas linhas 83 alć 93. Após passar os argumentos 
para a read, a chamada dc sistema ć requisitada. o quc coloca o ntimero de caracteres realmcntc lidos em AX. Esse 
numero e copiado para CX e o numero de caracteres que ainda estao no buffer serii mantido em CX dali em diante 
A posięflo dc iirqtiivo do primeiro caractere nflo lido no nrquivo i mantida em BX. porlanto CX tern de ser somado 
a BX na linha 91. Na linha 92. a parte de baixo do buffer d coloeada em Dl de modo a ficar pronta para esaminar o 
buffer cm busca do prt'iximo caractere de nova linha. 

Apńs retornar de fillbuf. a linha 24 verifica se algo foi realmcntc lido. Sc nao foi. sallamos fora do laęo de lei 
tura cm buffer para a segunda parte do programu na linha 25. 

Agora cstnmos prontos para exaininar o buffer. O sfmbolo \n ć carregadti em AL na linha 26. e na linha 27 esse 
vulor ć cxaminado por laęo REP SCASB comparado com os sfnibolos no buffer. Hfl sempre tlois modos de sair do 
laęo: quando CX chega a zero ou quando um sfmbolo cxaitiinudo ć um caractere de nova linha. Se o flag dc zero 
estiver niarcado. entflo o ultimo sfmbolo exaniinado foi um \n e a posięflo de arquivo do sfmbolo correntc (um após 
a nova linha) dcvc ser armazenada no arranjo linii. Entflo a contagem ć inerementada e a posięflo de arquivo ć cal- 
culada a partir de BX e o numero de caracteres ainda disponfvcis estfl em CX (linhas 29 atć 31 1 . As linhas 32 alt? 34 


r 


a 

*« 





Oinclude' /syscalnr.h" 

1 

PUSH EXIT 

143 

PUSH bul 

185 


bufsiz = 512 

2 

PUSH EXIT 

144 

PUSH (tildes) 

1 86 


SECT .TEXT 

1 3 

SYS 

145 

PUSH READ 

187 


Intbutst: 

1 4 

3: CALLgeinum 

146 

SYS 

IBS 


MOV BP.SP 

S 

CMP AX,0 

147 

ADD SP,8 

189 


MOV Dl.linein 

1 6 

JLE BI 

148 

MOV CX,AX 

190 


PUSH GETCHAR 

1 7 

MOV BX,(cur1in) 

149 

ADD BX,CX 

191 


1: SYS 

! B 

CMP BX 0 

150 

MOV Dl,bul 

! 92 


CMPB AL>' 

1 9 

JLE 71 

151 

RET 

193 


JL 91 

1 10 

CMP BX,(counl) 

152 




JE 11 

111 

JG 71 

153 

gelnum 

194 


STOSB 

! 12 

SHL BX,1 

154 

mov Dl.linein 

195 


JMP ib 

1 13 

MOV AX llnh-2(BX) 

155 

PUSH GETCHAR 

196 


1. PUSHO 

1 14 

MOV CX.Imh(BX) 

156 

1. SYS 

197 


PUSH linein 

1 15 

PUSHO 

157 

CMPB AL.tn' 

198 


PUSH OPEN 

1 16 

PUSHO 

158 

JL 9b 

199 


SYS 

1 17 

PUSH AX 

159 

JE 11 

1100 


tMP AX,0 

1 IB 

PUSH (tildes) 

160 

STOSB 

1101 


Jl 91 

\ 19 

PUSH LSEEK 

161 

JMP Ib 

1102 

Iluum 0.12 

MOV (lildes),AX 

120 

SYS 

162 

1 MOVB(DI),W 

1103 

Um programa de aces- 

MOV SI linh-. 2 

MOV BX,0 

! 21 
122 

SUB CX,AX 

PUSH CX 

163 

164 

PUSH cui lin 

PUSH numlml 

1104 

1105 

so a arqutvo por leitura 

1: CALL fillbuf 

! 23 

PUSH bul 

165 

PUSH linein 

itoa 

de butler e aloatono 

CMP CX,0 

1 24 

PUSH (tildes) 

166 

PUSH SSCANF 

1107 


JLE 3t 

125 

PUSH READ 

167 

SYS 

1108 


2; MOVB AL.W 

126 

SYS 

168 

ADD SP.10 

1109 


REPNE SCASB 

127 

ADD SP,4 

169 

RET 

1110 


JNE Ib 

1 26 

PUSH 1 

1 70 




INC (count) 

129 

PUSH WRITE 

171 

SECT DATA 

1111 


MOV AX,BX 

130 

SYS 

172 

ermtess: 

1112 


SUB AX.CX 

131 

ADD SP 14 

173 

ASCIZ "Open ",«s failed\n‘ 1113 


XCHG SI.OI 

132 

JMP 3b 

174 

numfmi: ASCIZ “%d" 

1114 


STOS 

133 

8: PUSH scaneir 

175 

scanerr 

1115 


XCHG SI,Dl 

! 34 

PUSH PRINTF 

176 

ASCIZ Type a number \n‘!116 


CMP CX,0 

135 

SYS 

177 

.ALIGN 2 

1117 


JNE 2b 

136 

ADD SP.4 

1 78 

SECT BSS 

1118 


JMP Ib 

137 

JMP 3b 

179 

linein: SPACEB0 

1119 


9; MOV SP.BP 

138 

7. PUSHO 

180 

lildes: .SPACE2 

1120 


PUSH linem 

! 39 

PUSH EXIT 

1 81 

linh. .SPACE 8192 

1121 


PUSH errmess 

140 

SYS 

182 

curlln SPACE 4 

1122 


PUSH PRINTF 

141 

fillbuf; 

183 

bul: SPACE bulslz+2 

1123 


SYS 

142 

PUSH bulei* 

184 

count; .SPACE 2 

1124 


exeeutum u armu/enainentu prupriamente dilo, porem, vislo tpie STOS pressupfte que o destino esta em Dl e nfu> cm 
SI, esses registradores i>au permutados antes e após> a STOS. As linhas 35 ale 37 verilicam se ha mais dados dispo- 
n(vcis no buffer, e saltum de acordo com o valor de CX. 

Quando o llnal do arquivu e alcanęado, lemos uma lista complela de posięńes dos infcios das linhas do arqui- 
vo. Como inicinmos o veior linh com uma palavra 0, sabemos i|ue a primeira linha comeęou no endereęo 0, e que 
a próxinm linha comcęa na posięao dada por linh + 2 elc. O tumanho da linhu n poile ser enconlrado pclo endere¬ 
ęo de inicio da linha n + 1 inenos o endereęo de inicio da linha n. 

O objetivo do resto do programu e ler o numero de uma linha, ler uquela linha paru o buffer e produ/ir sua 
salda por meio dc uma chamada write. Todas as infonnuęóes necessarias podem ser cnconlrudas no vetor linh cuju 
cnćshnu cni ruda conlćin a posięilo do inicio da linha n no arquivo. Se o numero de linhu requisitudo for 0 ou esli- 
ver fora de ulcance. o programa sai, saltando para rńtulo 7. 

Essu parte do prognuna comcęa com uma chamada para a suh-rotina getnum na linha 46. Essa rot i na le uma 
linhu da entrudu pudiao e u arma/.ena no buffer linein, (nas linhas 95 atć 103). Em seguida, nos preparamos para a 
chamada SSCANF Considerando a ordem inversa dos argumentos, em printeiro lugar passarnos o endereęo de nu 
lin, quc pode conler um valor inleiro, entao o endereęo da cadeia de formato de inleiros numfmi e. por firn, o ende¬ 
reęo do buffer linein que contćm o numero em nolaęao decimal. A sub-rotina de sistema SSCANF coloca o valor 
binarni cm curlln, se poss(veL Se falhar, retorna um 0 em AX. Esse valor dc retonro ć testado na linha 48; se falhar, 
o programu gera uma mensagem de erro por meio do rńtulo 8. 

Se a sub-rotina gelruim relomar um inteiro vdlido em curlin, entdo primeiro o copiamos em BX. Em seguida, 
lestamos o valor em relaęao ao alcance nas linhas 49 ate 53, o quc gera uma EXIT se o numero da linha estiver fora 
de alcance. 

hntao devcmos uchar o finał da linha selecionada no ari|uivo c o numero dc bytes u ler, portanto, multiplica- 
mos BX por 2 com urn deslocamento para a esquerda SHL. A posiędo de arquivo da linha pretendida e copiada para 
AX nu linha 55. A posięao dc arquivo da linha seguiute e passada para CX c sera usada para culcular o numero de 
bytes na linhu correnle. 

Para la/er uma leitura aleatória de um urquivo ć preciso uma chamada Iseek para ajustar o deslocamento do 
arquivo pani o byte a ser lido. A Iseek e executada em relaęao ao inicio do arquivo, portanto, em primeiro lugar um 
argumentu de I) e passado para indicar isso na linha 57. O prńxinu> argumentu ć o deslocamento do arquivo. Por 
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O definięiio esse argumento ć uin inteiro longo (isto e, 32 bits), portanto, em primeim lugar passantos uma palavra t) 

e em seguida o valor de AX nas linhas 58 e 59 para formar um inteiro de 32 bits. Entao o descrilor de arquivo e códi- 
go para LSEEK sao passados e a chamada e feita na linlta 62. O valor de retomo de LSEEK <5 a posięao corrente no 
arquivo e pode ser encontrada na combinaęao de registradores DX : AX. Se o numeru couber dentro de uma palavra 
de mdquina (o que acontecerd para arquivos menores do que 65.536 byles). entao AX contćm o endereęo, portanto. 
subtrair esse registrador de CX (linlta 63). resulta no nu mero de bytes a ser lido de modo a trazer a linlta para den 
tro do buffer. 

O resto do programa e fdcil. A linlta e lida do arquivo nas linhas 64 ate 68 e entao e escrita para safda padrao 
por meio do descrilor de arquivo 1 nas linhas 70 atć 72. Notę que a contagem e o vnlor do buffer ainda estao na 
pilha após a limpez.a parciał da pillta na linhn 69. Por fint, na linha 73. rcajustamos o pontciro de pillta contpleta- 
mente e estnmos prontos para a próxima elapa. portanto, saltamos de volta para o rótulo 3 e reinicinntos com outra 
chamada a getmwt. 

Agradecimentos 

O assentbler usado nestc apendice e parte do “Amsterdam Compiler Kit." O kil inteiro esta dispom'vel onlinc 
em mvw.cs.vu.nl/ack. Agradccentos a todos os que sc envolvcram cni scu projeto original: Johan Stevenson. Hans 
Schaminee c Hans de Vries. Somos especialnienle gratos a Ceriel Jacobs, que mantćm esse pacotc dc software e 
que ajudou a adaptd-lo diversas vczcs para atcnder aos requisitos didtiticos de nossas aulas, e tambem a Ellh Ogston 
por ler o manuscrito e testur os exentplos e exerc(cios. 

Queremos agradccer tambćm a Robberl van Renesse e Jan-Mark Wams. que projelaram rastrcadores pani o 
PDP-11 e o Motorola 68000, respectivamente. Muitas de suas idćias sao usadas no projeto de nosso rastreador. 
Ademais. qucremos agradccer ao grandę grupo de professores-assisteutes e operadores de sislemas que nos tfim 
dado assistŚncia em niuitos cursos dc programaę3o em linguagem dc montagem durante muitos anos. 


Problemas 

1. Após a instmęSo MOV AX, 702 ser esecutada, quais s5o os valores decimais para os conteildos dc AH e AL? 

2. O registrador CS tent o valor 4. Qual 6 a faixa de endereęos absolutos de mentória para o segmentu de código? 

3. Qtial ć o mais alto endereęo de memória que o 8088 pode acessar? 

4. Suponha que CS = 40, DS = 8(X)0, c IP = 20. 

a. Qual 6 o endereęo absolutu da próxinta instruęao? 

b. Se MOV AX. (2) for executada, qual palavra de memória ć carregada em AX? 

5. Uma sub-rotina cotti trfis arguntentos de intciros ć chamada em seguida k seqli6ncia de chamada descrita no 
texto, isto ć. o chamador passa os arguntentos para a pilha em ordcnt inversa, entao executa unia instruęilo 
CALL. A rotina chamada. entao. salva o BP antign e ąjusta o novo BP para aponlar para o antigo salvo. Daf, o 
ponteiro de pilha e decrementado para alocar espaęo para variiiveis locais. Com cssas convenęt)es, d5 a instru¬ 
ęao necessória para mover o primeiro argumento para AX. 

6. Na Figura C.l a exprcssao de -hw 6 usada como um operando. Esse valor e a diferenęa entre dois rótulos. 

Poderiam existir circunstibicias nas quais de +hw poderia ser usada como um operando vtilido? Discuta sua 

resposta. 

7. D6 o código de montagem para caleulur a cxpress3o 
x = a + b + 2 

8. Unia funęao C 6 chamada por 
foobar(x, y); 

Dfi o código de montagem para fazer essa chamada. 

9. Escresa um programa ent linguagent de montagem para aceitar expressoes de entrada consistindo em um intei¬ 
ro, um operador e outro inteiro e produz.a o valor de safda da expressao. Permita os operadores +. -. X. e /. 
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ADSL heju Asymmelrii DSL) 

Aiivunted Microcontrolicr Hm Architcciurc. 
333 

Adiuneed Prugrjmmahlc lulcmipt Controllcr 
icomrulador de inlenupytiu programaiel 
.uanyudo), 112 
AGI*. barwnemu. 62. 119 
Agi upalnemu, NTFS, 290 
Aiken. Howard. 9 
Ajuste de programu, 301 
Algebra btHileana, KO KI 
Algebra de comutuęao, HO 
Alguritmo, S 

Algoritmu de subsliluiguo de prSgrnu. 2S7-2S8 
l iro. 25K 
LRI 1.257 

Algoritmu l-irsi-lii First Out (primeini a 
emrar. primeini u sair), 258 
Algoritmu I east Kccently IJsed (meno* 
retentemcntc usuda) 175, 257 
Algoritmu mclbor ajuMe, 261 
Algoritmu primeini ujmie, 261 
Algoritmm de ubmentayAo de hehes por 
demandu. 257 
Alplni. 15 

Alleragao ile segmentu. 423 

Al.t) ( vejtt linidade Idgica e aritmelica) 

Alvo, PCI, 120 

AMBA (vrju Adiuneed Microamlrołlcr Bus 
Arehitceture) 

American Standard Codę fur Infunnation 
Interehange, 73 
Amplitudę. mudulugAn de. 67 
Amsterdam ('ompiler Kil. 424 
Anel, 361 


APIC (veju Adiuneed Prugrammable Interrupt 
Cuntrullcr) 

Apple II, 14 
Apple Mucintusb. 14 

Application Progrumming Imcrlucc (imerfucc 
de prugrainu^ao de uplicuyau). 281 
Applieation-Specitie Inlegrated Circuit 
(circuito inlcgrado espetifieo para 
aplicagau), 336 

Arbitriigem de burrainemo. 106-108 
KI. 120-121 
Arbitro de hun ainento, 59 
Area dc miMndo. 144 
Argumentu. 420. 

Aritmćuca bindna, 402 
Aritmelica sulurudu, 325 
Antmćtieo, circuiui, 88-91 
Amuuenagem, 39 
Annu/enamcmu lvfju Memoriał 
Armu/cnamcntn ile conlmle, 140 
Arma/cnamento para targa, 186 
An|uiletura. 5, 32 

Arquitetura tarregue/armu/ene, 203 
Arijuiteluru de cnmputndurcs, 5 
nrarcos da, 8-15 

Arquiletura ile computadores puralelos, .322- 
3K3 

co-processadorcs, 334-342 
muiticomputador, 359-379 
multipmcessador. 342-359 
multiprocessadur com uin tiiiico chip, 330- 
333 

multithreading. 327-330 
paralclismo no chip, 323-333 
parulclismn no nivel da instnifao. 323-327 
proccssadur de nddia. .338-341 
processadur de rede, 334-338 
taxonomia, 344-346 

Arquilcluru de trćs barramentos. 161-162 

Arijuitetura Hanard, 45 

Ari|iiitctura su|icrescalar, 36-37 

Arquivo, 267-271 

Arquivo binario esecutaicl, 423 

Arijuiiu imediatu, 290 

Arquivo-objcto. 423 

Arrediindatuento. 405 

Arvore, 361 

Amin; gurdii, 361 


ASCII (i>eyu American Standard Codę lor 
lufoniuiiion Interehange I 
AS1C ti <eju Applicution-Specifie Inlegrated 
Circuit) 

Assembler (montador), 4. .300. 308-312,410 
8088. 423-426 
tle duas etapas, 308 
passugem dois, 311 
passugem mu, 308-310 
tabela de simbulus, 311-312 
Assincronu, barramento, 105-106 
Asymmetric DSI. (DSL assimćtritfo), 68 
AT Altachment, 49 
ATA-3,49 

ATA Pocket Interfuce (btterface de pucutes), 50 
A l A serial. 50 
Atalhu virtuul, 364 
Alanasolf, John. 9, II) 

ATAPI-4, 50 

AtragAu, memriria ile. 358 

Alraso de porta, 85 

Alraso diferencial do barruincmn, 103 

AusAncia da caclte, 174 

Aulodccrcmcnin, 416 

Auto- ineremento, 416 

Autornodificador, 213 

B 

Babbage. Charles, 9 
Banda larga. 68 
Hardcen. John, 11 

Barramento. 12.29,58-60. 101 113, 117-127 
AGP. 119 

assincronu, 105-106 
F.ISA, 118 
IBM PC. 117-118 
ISA, 117 118 
mu!liplcxudo, 103-104 
operaęiko, 106 
PCI. 118-123 
PCI Eupress. 123-125 
Pentium 4. 112-11.3 
prolocolo de. 102 
sincrimo, 104-105 
transferincia de bloco. 108-109 
USB. 125-127 

Hurrumcmci, atruso diferencial do, 103 
Bamtmcnlo, escntvt> de, 102 
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Barramento, mestre dc, 102 
Barriunemo serial universal, 125-127 
USB 2.0. 127 
Base (reja Rai/.) 

Basc, 78 

Base, rcpislrador de. 4 12 
Basic Inpul Output System (sistema 
biisieo de entrada e salda). 49 
Baud. 68 

BCD (ve/u Binary Codcd Decinial) 
Bcchlolsheim. Andy, 24 
Biblioteca-alvo. 319 
Biblioteca compartilhada, 319 
Biblioteca de importaęao, 319 
Biblioteca hospedeira, 319 
Big endian. computador, 41 
Bindria. aritmćlica. 402 
Binary Cuded Dęci mai (cddigo decinial 
codificado em bindrio). 39.415 
BIOS (ir/n Basic Input Output System) 
Bipolar, 79 
Bil. 39-40. 398 
Bit de paridade. 42 
Bit cnvenenad», 183 
Bil presente/ausente, 255 
Bliblt. 341 

Błock Started by Symbol (bloco iniciado 
por sfmbolo), 424 
Bloco bdsico, 182 
Bloco indireto, 287 
Bloco indireto duplo. 287 
Bloco indireto triplo, 287 
BlucGene/L, 362-364. 366-367 
Blu-Ray, 58 
Bolha de imersao, 79 
Boole, George. 80 
Brattain. Walter. 11 
BSS (re/<i Błock Started by Symbol) 
BTB de rastreamento, 185 
BIB 1.1, 185 
BuiTcr circular. 272 
Bufler de busca aniecipada. 35 
Btiffer de desvio-alvo. 185 
Buffer inversor. 97 
Bufler nSo imersor, 96 
Bug do Ano 20(8), 21 
Burroughs B5(XK). 12 
Busca (seek), 48 
Busca antccipadn. 379 
Busca bindria. 312 
Byron, lorde, 9 
Byle. 40. 197, 115 
Byle dc prefUo. 156. 210. 228 

c 

Caheęalho, 123 
Caheęalho IP. 335 
Caho. Internet ptir, 69-71 
Cachc associatica de conjunto de n vias, 
175 

Cachc associatica dc conjunto. 175-176 

Cachc de alocaydo dc escritn, 175. 350 

Cachc de blocos. 278 

Cachc de busca aniecipada, 188 

Cachc de dados. 188 

Cachc de escritn direta, 175, 349 

Cachc de escrita relardada, 175 

Cnche de escrita relroatirn. 175. 350 

Cachc de escuta. 110. 349-350 

Cachc de espia. 110. 349-350 

Cnche tle mnpeamento direto. 173-174 

Cachc de nfvel 2. 173 

Caehe de rastreamento, 184 

Cachc dividida, 45. 173 

Cachc tmifleada. 45 

Camada. 2 

Camada-base. 380 


Camatla coletisa, 380 
Camada de abstraędo de Imtdwarc. 280 
Camada de aplicaęHo, 380 
Camada de enlace. 124 125 
Camada dc recursos, 380 
Camada de software. 125 
Camada de transaęSo. 125 
Cnmnda ffsica. 124 
Cilmera digilal. 71-72 
Caminho, 285 
Cnminhn absolulo. 285 
Caminho dc dados. 3. 30. 135-138 
Mic-1. 140 
Mic-2, 164 
Mic-3. 167 
Mic-4. 170 

lempori/aęSo do. 136-137 
Caminho relntivo, 285 
Carga titil. 123 

Cargns cspeculativax. 247-248 
Carrcgamento. 312-319 
Catamount, 366 

Catłiodc Ray Tubę (lubo de raios 
catódlcos), 60-61 

CCD [Yfija Chargc-Coupled Dcviccs) 
CC-NUMA (veja Mulliprocessadores 
NUMA com coerfincia de cache) 

CD rcgravdvel, 56 57 
CDI' (re/n Control Data Corporation) 
CDC 6600, 8, 12. 36. 179, 334 
CDR, 55 

CD-Recordable (CD gravdvel), 55 
CD-ROM (ve/n Disco compncto com 
memória somentc de leitura) 

Celeron. 23 
Cćlula, memória, 40 
Central dc computaęSO, 14 
Cenoal Processing Unit (uniiladc cenlrid 
de processniticmo). 11. 29 
Chamadn dc maem, 306 
Chantada de procedimento. instruytio de, 
224 

Chamada de sislema, 6, 252 
Chamada distanie, 420 
Chamada do supervisor, 6 
Chamada próxima. 420 
Charge Coupled Dericcs (dispositivos de 
carga emparclhadn), 71 
Chavc. 269 
Chip. 84 

dc CPU. 100-101 
Chip. paralelismo no. 323-333 
Chip de memória. 97-98 
Chip RFI1.J. 17 18 

Ciclo htiscar decodificar-executar, 31 
Ciclo huscar-execular. 135 
Ciclo de barramento. 104 
Ciclo do caminho de dados, 30 
Cillmlro, 48 

Circuito aritmStico. 88-91 
Circuiło combinacional. 85-88 
comparador. 86-87 
dccodificador, 86, 87 
multiplexador. 85-86 
Circuito integrado. 12-13. 84-85 
Circuito ylrtual, 125 
Cfrculo s irluoso. 16 
Clone. 14 
Clustcr. 20-21. 346 

estaęao de irnbalht), 367-370 
Google. 368-370 

Cluster of Workstalions (grapo de 
estaęóes de trahalho). 20-21. 346 
CLUT (re/n Color I.ook Up Tahle) 
Cohol. programa. 21 
CotlificaęHo hash, 312 
Código de caractercs. 73-74 


Código de cotldięOn. 199 
Código de eoireęślo de erro. 42-44 
Código de escapc, 210 
Código de Hamming. 43 44 
Código de Reed Soloimm. 47 
Código indcpcndenic de posięao. 317 
Coletor. 78 
Coletor aherto. 102 

Color Look Up labie (tabela de consulta 
de cores). 340 
COLOSSlis. U) 

COMA (re/n Mulliprocessadores Caehe 
Only Memory Access) 

COMA simples. 358 
Combinacional, circuito. 85-88 
Commodity OfTThe Shelf (mercadoria de 
pratelcira). 20 

ComparaeSo de arquiteuiros. 191-192 
Compamyilo c iless io condicional. 223 224 
Comparador. 86-87 
Compartilbainento limitadn. 330 
Compartilhamento total de recursos, 330 
Compalibilidadc. I9(i 
Compilador, 4.300 
Contplcmcnlo de dois. 401 
Complemento dc om. 401 
Complex Instraction Set Computer 
(computador com conjunto de 
instruęócs compleso). 33 
Comprinientn do caminho. 159, 160-165 
Computaę3o pervasiva, 15 
Computaęilo uhitgia. 15 
Computador da primcira geraęllo, 10 II 
Computador dc jogo'. 19 
Computador embutido, 15 
Computailor invisfvel. 15 
Computador N() Remote Memory Access 
(sem acesso .3 memória remota). 345 
Computador pessoal. 19-20 
Computadores de quorta gcrayflo, 14 15 
Computadores de segunda gcraęilo. 11-12 
Computadores de teneira gerayao. 12-13 
Conumicador. 371 
Comuiaędo dc pacotes, 334 
Comutaęao de pacotes arma/ena-e- 
rcenvia, 334 

ConcessSo de barramento. 106-107 
Cnndięfles de disputn. 272-274 
Concclor campiro. 334 
Conjunto de eonstantes. 144 
Conjunto de inslruęóes do 8088.416-423 
Conjunto de trahalho. 255-257' 

Conjuntos de inslruyóes. comparaySo de. 
232-233 

ConsistSncin de caehe. 349 
ConsislSneia de liberay3o, 348 
ConsistSncia de processador, 347 
ConsistSncia estrita. 346 
ConsistSncia fraea. 347-348 
ConsistSncia scqliencial. 346-347 
Constante dc rclócaydn, 31S 
Consumidor. 272 
Comador de locali/aydo. 123 
Cnntador de programa. 411 
Conlexto. 265 

Control Dala Corporation. 12 
Contrnlador. 58 

Controfiidor de harramento. 102 
Contmlndor dc disco. 49 
Controlc de lluxo, 125 
Comrole de layo, instruęSo de. 224-225 
Controlc dc microinsIrnęSo, 140 142 
Comersiło entre hases. 399 400 
Cópia na escrita, 282 
Co-proeessndor. 334- 312 
Cor indesada, 62. 340 
CoreConnect. 332 


a 



Co-rotmu, 236 238 

<'(MS i icjit ( oiiimodii) Ot! The Shelf) 
C'( )W 11 ija ('luster Ot Workstation*) 
CP/M, 14 

CPP, I 35. 140, 144, 145 131 
CPU (i cja Central Processing limo 
CPU, chip dc. 100 101 
CPI InMcdia, (21-327 
Cisy, Seymour 12 
Cray 1,12.32 

(IM Iii •/« Cyc lic RcdumlanC) Clieck) 

('i luyflo dc proccsso, 271 272 
Ciiplogiufia dc clunc publica. 311 
Oriptografia ile chat c situćlrica, 341 
('riplopnicessadnr, 341 - (42 
CRI (icyn ('ultimie Ra) rubel 
CuIki. (61 
Cyber .la COC. 32 

Cyclic Kedunduncy Che. k (cerilicaySo 
poi icdumlAuciu tleli, ai, 125, 127, 335 

D 

Dudiik juslificudos pelu direila, 221 
I Indos veUiuk, 346 
DAIA seyao. 424 

DOR leryu Mamona Ouublc Dula Ralc) 
OfcC {reja Digital l.i|uipiiicnl 
CorpniaiKiiil 
DEC Alpha, 15 
DEC POP-1 II 12 
DEC POP 8. 12 
Decimal, 424 

Decodificaęau de endereyo. 128-126 
DccudUicayuo parciał dc endercyo, 129 
Dccoditicador, 86, 87 
Defmiyilo de uiuCRi, 305-306 
Dcmandn, pagmayao por. 257 
licimilliplccadur. H6 
Ocpendeucia RAW, 166 
Depcndćncm cerdudeiia, 166 
Ocpeiidćncia Wrile Aftcr Rcud (Escrila 
upds Lcilural, 180 

Dcpcrulfnciu Wrile Atler Wrile lEkcrita 
aprtk Ekcrilai, 180 
Dcpressao (/» in. 53 
Dcscaiga iJum/n de nic-móna, 6 
DckcriUir ile aujuito, 285,422 
Dckcrilur dc seguranyu, 286-260 
Ockempcnlio. compuladar paralelo, 376- 
376 

lei de Amdahl, 378 
melhoria dc, 376-379 
rnćiricu de hardware. 376-377 
inćiricade software, 377-378 
ohicnyao de, 378-376 
ocullayitu dc lulćnciu, 376 
Dekempenho ile imihicunipuiuihirck. 376- 
376 

Dcklocudor. 88. 86 

Dcklocumemo dc regislrudor, 415 

Ockt lo, 233-234 

Diiiiueiro de unia rede, 360 

Digilul, camera, 71 72 

Digital Ki|uipnicm Corporation, II, 12, 

32 

Digilul Subscriber Eiuc I India digital de 
askinaulei. 68 66 
Digital Subkcriber t.ine Acceu 

Mulliplenei (multiple-sadol de acckkO 
de linhu digilul ile ussinuiitc). 66 
Digital Vcikalile Disk (disco w-isaul 
digital). 57-58 

Digital Video Disk (disco de video 
digital). 57 

Oimeiikioiudidadc. 361 
DIMM {reja Dual luliue Meiilniy 
Module) 


DIPlityYi Dual Inlinc Packagc) 

Direcl Memory Access (acesso direto ti 
memdria). 56, 226 
Direlivu de asscmhler, 303 
Dirclo, cndcreyamcnlo, 212.415 
Diretńrio, 270-271 
Diretdiio dc piiginas, 264 
Diretóriu de trabalho, 285 
Diretdrio-rau!. 285 
Dikco, 46-58 
CD-ROM, 53-55 
DVD. 57-58 
nexivcl, 46 
IDU, 49 50 
magnćtico, 47-53 
ólico, 53-58 
RAID, 51-53 
SCSI, 50-51 
Winchester, 47-48 

Disco i ompacto coni memdria soinente 
dc leitura, 53-55 
regravavel. 56-57 
setor, 54 
Irilha, 56 
XA, 56 

Disco rlgido {reja Disco) 

Dispositivo de Iris esUidos, 67 
Dispositivo de varrcduru {raster min). 60 
Dispositicos dc Enlrada/Saida 
cauicras digilais, 71-72 
discos inagneticos, 47 53 
discos dticos. 53-58 
ei|uipuniento de tclcconmnicaydes. 67- 
71 

impressoras, 64-67 
modens. 67-68 
monitor CRT. 60-61 
monitor ile tcla piana, 61 -62 
mousek, 63-64 
tcclados, 60 
lermiiłiiis, 60-63 
Disquetc, 49 

Distóncia dc Hamming, 42 
Dislnbuied Shurcd Memory (memdria 
compuriitiuida distribuldal, 343, 372- 
373 

Diyisor, 66 

Ol J. (reja Dynamie l.ink l.ihrary) 

OMA (t reja Direct Memory Access) 

Oots per inch (pornos por polcgada), 64 
Double PoinTeR (Pomeini Duplo), 191 
DPI (reja Dots per inch) 

ORAM {reja Dynnntic RAM) 

Driver de dispositivo, 280 
DSL (reja Digital Subscriber Ijne) 
OSl.AM {reja Digital Subscriber t .ine 
Access Multiplexer) 

OSM (reja Dislnbuied Shared Memory) 
OSM dr hardware. 353 
Dual. 82 

Dual Inlinc Memory Module (mddulo 
duplo de memdria ein linha), 46 
Dual Inhne Packagc (pacotc duplo em 
linha). 84 

Dupla prccisao, 205 
Duplo, 412 

OVD {reja Digilul Versatile Disk) 
Dynumlc l.ink Library (hibliolecu de 
ligayflo dinflmica), 318 
Dynamie RAM (RAM dinliniica), 98 

E 

E/S I reja Enlrada/Saida) 

U/S. instniyóes de. 225-227 
k/S mupeuda para a memdria, 128 
E/S programudu. 225 
E/S firtual, 267-271 


em UN1X, 284 288 
mipleincnladto, 268-271 
no Windows XP, 288-260 
Eckert, J. Ptesper, 10 
ECł. (wyu Emittcr Coupled l ogie) 

Falitor de ligayao, 312 
EDO ( reja Memdria Exicnded Dala 
Output) 

EDVAC (reja Electronic Di ściele 
Vanuble Aulunuitic Compuler) 
EEPKOM {reja Hlcclrically Erusablc 
PROM) 

E11CI ( er ja Enhanccd Hosl Cnniroller 
Imctfucel 

EIDE {reja Extended IDE) 

EISA {reja Exlcmlcd ISA) 

Electrically Erasablc PROM (PROM 
elelricumente aptigut el), 100 
Electronic Discrele Vuriablc Automatic 
Compuler, 10 

Electrouic Numerical Integrator And 
Computer, 10 
Elecuyao de cddigo, 182 
lim linha (rn-Uite), 270 
Embaiulłiumcnio perfcito, 352 
Emissor. 78 

Emittcr-Couplcd logie lldgicu de emissor 
acophulo), 76-80 
Empaeotaniento dc memdria, 46 
Emprcsa dc telefonia, 68 
Emulayiio, 13 

Eiicudcuiueulo em sćrie (tlaisy ihalning), 
107 

Endcrcyamenlo, 207, 212 220 
8051,216-220 
8088,414-416 
dc basc indesado, 214 
dc pilha, 214-217 
de registradoi. 212 
deslocuinemo, 415 
dirclo, 212 
imcdialo, 212 
iinpltcito, 416 
indesudo. 213-214 
indireto, 213.415 
indireto dc regisirador, 213 
Pentium 4.218-219 
UltraSPARC, 216 
Endereyo, 40,411 
de memdria, 40-41 
efełivo, 415 
linear, 263 
Endian, 41 
big. 41 
linie, 41 

Enhanccd Host Controllcr imerfuce 
(i mer lace melhorada de comrolador de 
hospedeiro), 127 

EN1AC {reja Electronic Numerical 
Integrator And Computer) 

ENIGMA. 10 
Enirada padrSo. 285 
Enlrada/Saida. 58-74 
Entrelayados, smais de leleusSo, 340 
EPR (reja Explicitly Paraliel Instmction 
Compuling) 

Epilogu tle procetlimcmo, 236 
EEROM ( reja Erasablc PROM) 
Equipamento dc telecotnunicaydes, 67-71 
Eł|uival6ncia de circuito, 82-84 
lirasahle PROM (PROM apagdvel). 26, 
66-100 

lim de Odia, 405 
Erro padrfto, 285 
Erro rclativo, 405 
Escalouuilor, 186 

Escalonumcnto dc instruydcs, 245-246 
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Escalonamento de tnullicnmputadores, 
372 

F.scravo de bamuneiUo. 102 
Espaęo ile cndcrcęo, 253 
Kspaęo ile endcreęo Esico, 234 
Espaęo de endereęo eirtual, 254 
Espaęo de uiplas, 374 
Hspcra ocupada, 226 
Eslnęiio dc trnbalho sem cabcęa, 367 
Estado 
8051. 191 

iiukpiimt de eslodo finilo, 163 
Estado dc cspcra, KM 
Kstslgio do pipeline. 35 
Kstrategia de atualizaęSo, 350 
Estralćgia de invalidaęSo, 350 
Estrela, 361 
Estridgc. Philip. 14 
Ethernet, 334 
Evento, 294 

EvoluęSo de computadores, 5-8 
ExceęŚo (fra/>), 238, 417 
Esdusan nnitun. 292 
Execuę3o condicional, 246 
HxccuęSo de inslnięao, 30-33 
ExecuęSo especitlativu, 182-183 
ExecuęSo fora de ordem, 178-182 
Executivo. Windows XP. 280 
Expans3o dc niacro. 306 
EspansAo de opcodes, 208-210 
Explicitly Parallel Instruction Compiiling 
(computaęSo por instruęito 
cxplicitamentc paralela), 244-248 
Expoente, 404 

Extended IDE (IDE estendido). 49 
Extended ISA (ISA estendido). 59. 118 
Exlens3o de sinal. 138 

F 

Ealso companilhnmcmo. 373 
Falla dc piigina. 255 
Familia MCS-51.25 
Fasę. módulaęSo de, 67 
FAT (reja Filc Allocation Table) 
Fcchamcnto. 397 
l i lira. 29.3 

Ficba de accsso, 289 
Field Prograimnublc Gale Array (arranjo 
de portas programi1vel ein catnpo), 336 
FIFO (reja Algoritmo First-ln First-Out) 
Fila de tnensagens. 291 
Filc Allocation Table (tabela de aloeaęSo 
dc arquivo), 288 
Fillro, 285 
Filtru Bnyer, 71 

Finite State Machinę (tnńquina de estado 
finito) 

previsao de dcsvio. 177-178 
imidade de busca de instruęAo. 163 
Firewall. 335 

Flag mmliar de vai-um. 419 
Flag dc dircęiln, 416 
Hag dc paridadc. 419 
Flash, memória, 100 
Flip-flop, 93-94 

Flip-flop disparado pela Ironia. 93 
Fluxo. 278 

FIuxo de contnde. nlvcl ISA, 233-240 
co-rolinas, 236-238 
desvios, 233-234 
exceęóes. 238 
intcmipęócs. 238-240 
procedimentos, 234-236 
Fora de linha (ajf-tine), 270 
Fontuitos dc instruę3o. 207-220 
critórios dc piojeto. 207-208 
da UltraSPARC. 210-211 


do 8051,211-212 
do Pentium 4. 210 
nlvcl ISA. 207-212 
Forrester. Jay, 11 
Fortcmcntc acopladns. 322 
FORTRAN. 5-6 
FORTRAN Monitor System. 6 
FPGA (i eja Field Prograinmnble Gate 
Array) 

FPM (i ’«Ja Memdria Fast Page Modę) 
FraęHo. 404 
FrugmentaęSo 
extema. 261 
interna. 258 
Fragmento, 368 
Fteqil&ncia, modulaęiio dc. 67 
FreqUSncin de tein de meio-tom. 65 
FSM {reja Finite State Machinę) 

Fuli duplcx, linha. 68 

G 

Gabarito. 374 
Gama. 66 
Gama dc cores, 66 
GDT (reja Global Dcscriptor Table) 
Gcraęilo de cńdigo, 423 
Gerenciador de cache de arquivo, 
Windows XP, 280 

Gerenciador de E/S, Windows XP. 280 
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